数据挖掘
Linh-小哀
嗨呀马上要变成研究僧啦。
展开
-
【数据预处理】one hot编码(独热编码)
1、分类数据在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里。2、独热编码(one hot)独热编码便是解决这个问题,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效原创 2018-01-08 10:57:40 · 2032 阅读 · 0 评论 -
【数据挖掘】dummy variable 虚拟变量
一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。 适用于无序的离散数字变量。 例如: 若用数字1-12表示1-12月,那么就潜在表示了12月和1月差的很远,其实离的很近。 若用离散数字表示一地域,假如用数字1-23表示23个省,那么数字潜在的意思是,相邻的数字代表的省比较相似,差距的数字表示的省不相似,然而并没有这个意思。所以用单转载 2018-01-08 11:19:06 · 2270 阅读 · 0 评论