![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学
文章平均质量分 54
无风听海
这个作者很懒,什么都没留下…
展开
-
数据的标准化和归一化
我们使用sklearn内置的MinMaxScaler进行处理,可以看到处理之后最小值都变成了0,最大值都变成了1,这种缩放的副作用是标准差都非常小。前面我们已经学习了识别数据缺失值已经对缺失值进行处理的方法,但是KNN的准确率都不是很高,今天我们继续进行数据探索进一步增强机器学习流水线;现在我们对数据集的所有字段都进行z分数计算,然后通过直方图可以看到,横轴的数值分布在-2.5到7.5之间;在直方图中,让所有的列共享数据轴,可以看到所有的数据尺寸都是不一样的,有一些列已经无法显示图形了;原创 2023-12-05 06:44:47 · 182 阅读 · 0 评论 -
处理数据中的缺失值--填充缺失值
实际的训练过程中,是需要首先划分数据集,如果我们在应用算法之前直接对整个数据集填充值,我们就是在作弊,模型其实学不到任何模式。填充指的是利用现有知识/数据来确定缺失的数量值并填充的行为。如果我们直接使用0来填充缺失值,同样使用KNN模型得到的准确率是0.7357185298361768,有所降低的;我们使用列的均值进行填充之后,可以看到缺失值的行数为0,同时可以看到5行对应字段的值都是121.686763;可以看到所有的列都已经填充,sklearn的填充处理类确实减少了繁琐的填充工作;原创 2023-11-28 06:03:32 · 267 阅读 · 0 评论 -
识别数据中的缺失值
通过数据的缺失值,我们可以更好地明白如何使用真实世界中的数据。分析数据并了解缺失的数据是什么至关重要,这样才可以决定下一步如何处理这些缺失值。查看onset_diabetes列的相关性数值,可以看到plasma_glucose_concentration是预测糖尿病的重要变量;通过以下统计数据中的各个字段的min值,可以看到很多列的最小值是0,可以这些字段使用0填充了确实字段;可以看到数据集中没有数据点是空的(缺失值);❏ unknown或Unknown(类别型)可以看到糖尿病的发病率是65%;原创 2023-11-24 09:14:16 · 109 阅读 · 0 评论 -
数据的4个等级
然而我们需要知道,虽然这些值是数,但每个数其实代表的是类别,所以该数据是定性的,更具体地说,是属于定序等级。定距及更高等级的一大好处是,我们可以使用散点图:在两个轴上绘制两列数据,将数据点可视化为图像中真正的点。在定距等级,数值数据不仅可以像定序等级的数据一样排序,而且值之间的差异也有意义。定类等级是数据的第一个等级,其结构最弱。直方图是条形图的“近亲”,用不同的桶包含不同的数据,对数据的频率进行可视化。除了可以将数据分为定量和定性的,数据还可以分为以下4个等级,每个等级都有不同的控制和数学操作等级;原创 2023-11-22 07:15:53 · 490 阅读 · 0 评论 -
定量数据和定性数据
Pandas认为,数据只有3个定量列:Step、Union Code和Extended Step(步进、工会代码和增强步进)。我们清理一下数据,移除工资前面的美元符号,保证数据类型正确。最值得注意的特征是一个定量列Biweekly High Rate(双周最高工资)和一个定性列Grade(工作种类);.info()可以了解数据的列信息以及每列非null的行数;定量数据本质上是数值,应该是衡量某样东西的数量。定性数据本质上是类别,应该是描述某样东西的性质。全部的数据列如下,其中既有定性列也有定量列;原创 2023-11-19 18:30:45 · 161 阅读 · 0 评论