桜さん-CSDN博客

原创决策树+随机森林算法

n种可能性，在不知道任何信息时，将信息砍半后进行选择，如有32支球队，判断拿纸球队会获胜时，首先选择16支获胜概率较大的球队，→8→4→2→1，共选择5次，因此信息熵为log32=5（默认以2为底）因为每次选择进行二选一。当这32支球队夺冠的几率相同时，对应的信息熵等于5比特信息和消除不确定性是相联系的决策树的划分依据之一-信息增益：特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D。

2023-09-04 23:07:03 117

原创贝叶斯算法+分类模型评估+模型选择与调优

precision ( 精确度)：正确预测为正的，占全部预测为正的比例。weighted avg（加权平均值）：所有标签结果的加权平均值。recall（召回率）：正确预测为正的，占全部实际为正的比例。，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。f1-score (f1值)：精确率和召回率的调和平均数。support （各分类样本的数量或测试集样本的总数量）。样本中预测结果为正例的比例（查的全，对正样本的区分能力）macro avg (宏平均值)：所有标签结果的平均值。

2023-08-27 20:06:57 258

原创 K-近邻算法

③当特征值特别多时（大于100个特征时），需要进行特征的降维处理。7、对预测结果进行打分：knn.score(x_test,y_test),确定模型的精确度，至少70%才能用。②重要特征的筛选，筛选需要的重要的，不需要的删除。2、特征处理：①构造新的特征（例如时间戳转换为时间：星期、月份、小时等）6、预测测试集的特征结果：knn.predict(x_test)5、构造模型：将训练集的数据输入算法中。懒惰算法，对测试样本分类时的计算量大，内存开销大。案例：在整体算法过程中需要进行的一些步骤。

2023-08-22 23:12:22 66

原创数据集的划分以及估计器的使用

调用fit，对训练集进行学习，构造模型，然后将测试集数据输入模型，用predict进行预测，最后将得出的结果与实际结果进行比对，通过score来给模型的正确性进行打分。，因此使用该公式时需注意，当x1=x2时无影响，当x1！=x2时要注意，可能会出现偏差，但是fit_transform仅传入一个数据，因此不会出现问题。transform中的x2数据会根据x1数据的平均值和方差进行数据的标准化转换。训练集的“训练”，测试集的“测试”，两者的“全部”训练集特征值，测试集特征值，训练标签，测试标签。

2023-08-21 20:58:26 85

原创机器学习开发流程

，可以由输入数据中学到或建立一个模型，并依此模式推测新的结果。），可以由输入数据中学到或建立一个模型，并依此模式推测新的结果。当输出变量取有限个离散值时，预测问题变成为分类问题。回归是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系，近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络。大部分复杂模型的算法设计都是算法工程师在做，而我们。掌握算法基本思想，学会对问题用相应的算法解决。分类是监督学习的一个核心问题，在监督学习中，函数的输出可以是一个连续的值（称为回归）

2023-08-20 21:44:30 31

原创特征工程之特征的降维处理

VarianceThreshold(threshold = 0.0)：删除所有低方差特征，threshold后面可以写任意浮点数，代表选择特征值中方差小于该值的特征。很多时候，数据的特征繁杂，且很多是无用的，因此需要对特征进行降维处理，也就是将没用的特征删除掉，采用特征选择或PCA。，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。目的：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

2023-08-20 21:35:53 130

原创文本+数据的特征值处理缺失值处理

CountVectorizer ：对英文形式下的字符串进行词频统计，输出sparse矩阵，但是在该函数中没有sparse参数，需要使用 *.toarray()方法，将矩阵转换为数组。TfidfVectorizer ：对字符串中出现的词语进行概率的统计，输出概率矩阵。DictVectorizer ：对字典或者包含字典的迭代器进行数据的特征值处理，处理成sparse矩阵，当其其中的参数。找出对应文章中的关键词，好进行分类，但是需注意，单个字母不进行统计（单个不成词的文字也不进行统计）。文本字符串的可迭代对象。

2023-08-16 23:15:51 94

原创 linux应知应会

vi是“Visual interface”的简称，它在Linux上的地位就仿佛Edit程序在DOS上一样。它可以执行输出、删除、查找、替换、块操作等众多文本操作，而且用户可以根据自己的需要对其进行定制。Vi不是一个排版程序，它不象Word或WPS那样可以对字体、格式、段落等其他属性进行编排，它只是一个文本编辑程序。vi没有菜单，只有命令，且命令繁多。Vi有三种基本工作模式：+ 命令模式+ 文本输入模式+ 末行模式。

2023-08-06 21:24:19 64

原创 pandas用户画像分析

详见附件。

2023-07-30 20:45:07 38

原创美国政治献金大选作业

详见附件。

2023-07-30 02:37:27 42 1

原创人口数据分析

详见附件。

2023-07-30 01:29:49 37 1

原创 pandas时间序列复习

同时返回某一列的中位数、平均值，最小值，使用agg进行聚合操作drinks.groupby('continent').spirit_servings.agg(['median','mean','min'])apple.resample('BM').apply(fin)#对apple进行月最后一天工作日采样后返回每月的最后一个日期，apply是利用函数对前面的对象进行应用。print('/n>>>', df['国内生产总值'].idxmax(), '/n', df['国内生产总值'].idxmin())

2023-07-29 22:08:43 119 1

原创 pandas分类聚合+时间序列

test1=pd.date_range(start = '20210118',end = '20230630',periods=None,freq='M')#periods和freq不要共存，容易报错。df2=data_911.resample('M')['title'].count()#利用时间行索引将采样变为以月为单位，相当于降频，也就是分类统计。pd.set_option('display.max_columns',None)#显示所有列。'''把时间字符转化为时间序列'''

2023-07-26 20:16:02 95 1

原创 pandas数据合并拆分及聚合

使用groupby分组后的方法df.groupby().count()

2023-07-24 23:06:42 175

原创 pandasd的基础用法

一个数组构成对象的键（index，索引），一个数组构成对象的值，键→值。pandas的字符串方法：df.str.len()#使用方法。

2023-07-23 22:42:16 50 1

原创 numpy常用内容

2、创建一个全为0的数组：np.zeros((3,4))3、创建一个全为1的数组：np.ones((3,4))'''1、获取最大值和最小值的位置。，他们两个的数据变化是一致。

2023-07-23 00:03:26 33 1

原创散点图、直方图、柱形图的绘制

一段时间内用户点击次数的分布状态。方法的的是那些没有统计过的数据。应该选择那种图形来呈现数据。观察数据的离散聚合程度。用户活跃时间的分布状态。绘图的大小和保存图片。

2023-07-22 13:07:17 39 1

原创 matplolib折线图绘制

【代码】matplolib折线图绘制。

2023-07-18 23:17:55 27 1

原创模块导入及包

导入包的本质其实是“导入了包的__init__.py”文件。这样，可以在__init__.py 中批量导入我们需要的模块，而不再需要一个个导入。如果进行类比的话，import 导入的是“文件”，我们要使用该“文件”下的内容，必须前面加“文件名称”。from...import 导入的是文件下的“内容”，我们直接使用这些“内容”即可，前面再也不需要加“文件名称”了。3. 导入包实质是执行__init__.py 文件，可以在__init__.py 文件中做这个包的初始化、以及需要统一执行代码、批量导入。

2023-07-17 19:54:41 36 1

m0_57916426的博客

原创决策树+随机森林算法

原创贝叶斯算法+分类模型评估+模型选择与调优

原创 K-近邻算法

原创数据集的划分以及估计器的使用

原创机器学习开发流程

原创特征工程之特征的降维处理

原创文本+数据的特征值处理缺失值处理

原创 linux应知应会

原创 pandas用户画像分析

原创美国政治献金大选作业

原创人口数据分析

原创 pandas时间序列复习

原创 pandas分类聚合+时间序列

原创 pandas数据合并拆分及聚合

原创 pandasd的基础用法

原创 numpy常用内容

原创散点图、直方图、柱形图的绘制

原创 matplolib折线图绘制

原创模块导入及包

原创文件相关处理

原创异常和错误

原创类的继承和设计模式

原创函数+类——call

原创函数参数注意事项及递归

原创循环+函数

原创学习笔记第四天——字典

原创第三天学习笔记

原创第二天笔记

原创绘制海龟图

特征工程之特征的降维处理

pandas用户画像分析

美国政治献金大选作业相关代码

人口数据分析的相关代码实现

空空如也