数据预处理
文章平均质量分 83
Carolinedy
这个作者很懒,什么都没留下…
展开
-
数据预处理之数据相关性分析
相关性分析: 分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程成为相关分析计算相关系数: 1.Person 相关系数: 要求连续变量的取值服从正态分布,一般用于分析连续性变量之间的关系 2.Spearman 秩相关系数: 一般用于分析不服从正态分布的变量、分类或等级变量之间的关联性 3.判定系数: 用来...原创 2019-10-15 11:08:43 · 3404 阅读 · 0 评论 -
使用 Python 进行数据预处理中用到的各个扩展库及对应函数 拉格朗日插值法,主成分分析等
一、数据清洗 删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值、异常值。缺失值处理 删除缺失值、数据插补、不处理 Scipy:拉格朗日插值法 from scipy.interpolate import lagrange#导入拉格朗日插值函数 ...原创 2018-06-12 11:51:50 · 1608 阅读 · 0 评论 -
数据预处理:使用Hive,Scipy 和 data.describe( )处理缺失值的方法
在数据预处理过程中,空值的处理主要有以下三种处理方式:删除记录:当原始数据量大,空值数据所占比例较小,对结果影响不大时,可以对其进行丢弃处理。 插值:当原始数量较少,直接删除空值会造成样本量不足,可能会改变变量的原有分布。此时,可以利用现有变量的信息,对空值进行填补。 不处理Note:有时对于异常值,也会先将其置为空值,然后根据情况使用以下方法处理。可以使用多种处理方法: da...原创 2018-08-31 16:30:10 · 6519 阅读 · 0 评论 -
数据挖掘建模实例
一、数据抽取日均增长数据 10G,取宽度为 2年的时间段作为观测窗口,项目数据为 6 T(若日均增长数据 14 G,则项目数据 10 T)。TB 量级以上的海量数据,要考虑存储和计算的效率问题。基于分布式存储以后,数据被分布式存储在不同的服务器上,那么可以采用分布式计算框架(Mapreduce,Spark)来进行并行计算,大幅度提高工作效率。l方法一,使用 Hive 导入数据...原创 2018-09-17 09:52:58 · 4934 阅读 · 0 评论