算法
sujins5288
这个作者很懒,什么都没留下…
展开
-
OneHotEncoder独热编码和 LabelEncoder标签编码
OneHotEncoder独热编码和 LabelEncoder标签编码 学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别。 首先了解机器学习中的特征类别:连续型特征和离散型特征 拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特...转载 2019-06-06 10:59:19 · 183 阅读 · 0 评论 -
数据预处理方法
预处理数 1. 标准化:去均值,方差规模化 Standardization标准化:将特征数据的分布调整成标准正太分布,也叫高斯分布,也就是使得数据的均值维0,方差为1. 标准化的原因在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征。 标准化的过程为两步:去均值的中心化(均值变为0);方差的规模化(方差变为1)。 在sklearn.preprocessi...转载 2019-06-06 13:38:40 · 276 阅读 · 0 评论