- 博客(2)
- 资源 (5)
- 收藏
- 关注
转载 【数据挖掘】dummy variable 虚拟变量
一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。 适用于无序的离散数字变量。 例如: 若用数字1-12表示1-12月,那么就潜在表示了12月和1月差的很远,其实离的很近。 若用离散数字表示一地域,假如用数字1-23表示23个省,那么数字潜在的意思是,相邻的数字代表的省比较相似,差距的数字表示的省不相似,然而并没有这个意思。所以用单
2018-01-08 11:19:06 2270
原创 【数据预处理】one hot编码(独热编码)
1、分类数据 在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里。 2、独热编码(one hot) 独热编码便是解决这个问题,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效
2018-01-08 10:57:40 2031
adults、advertisement数据集 最佳特征选择 转换器
2018-01-12
movielens(100K)数据集分析,Apriori算法,电影推荐
2018-01-11
python数据挖掘入门与实践第二章代码和数据集 近邻算法 数据预处理 流水线
2018-01-10
微信公众平台搭建与开发解密
2016-04-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人