数据变换
数据变换就是指将数据转换或统一成更适合机器训练或数据分析的形式。
比如在进行机器学习前,我们将不在同一个数量级的特征进行变换,使其都转换到0–1之间或者-1–1之间,一方面计算机会计算得更快,另一方面数量级相同,模型会收敛得更快。
- 数据光滑:去掉数据中的噪声,分箱、回归和聚类等方法
- 聚集:对数据进行汇总或聚集,如计算日销售数据、年销售数据
- 数据泛化:使用概念分层
- 规范化:将属性数据按比例缩放,使之落在特定的区间([-1,0])
- 属性构造:指由给定的属性构造和添加新的属性,帮助提高准确率和对高维数据结构的理解。可以构造新的属性并添加到属性集中
其中:
数据规范化的方法有:归一化,标准化,小数定标等
- 归一化:有称最大-最小值缩放,(原始值 - 最小值)/ (最大值 - 最小值)
- 标准化:(原始值 - 平均值) / 标准差(自由度为1)
- 小数定标:用1000除以每个值