- 博客(5)
- 资源 (5)
- 收藏
- 关注
转载 特征离散化
作者:严林 链接:http://www.zhihu.com/question/31989952/answer/54184582 来源:知乎 著作权归作者所有,转载请联系作者获得授权。 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 0. 离散特征的增加和减少都很容易,易于模型的快速迭代; 1
2016-08-30 19:09:05 745
转载 数据处理——One-Hot Encoding
一、One-Hot Encoding One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。 在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,如下面的例子:
2016-08-30 19:00:54 420
转载 MapReduce实现大矩阵乘法
引言 何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类
2016-08-16 20:18:52 344
转载 SQL中Group By的使用
1、概述2、原始表3、简单Group By4、Group By 和 Order By5、Group By中Select指定的字段限制6、Group By All7、Group By与聚合函数8、Having与Where的区别9、Compute 和 Compute By 1、概述 “Group By”从字面意义上理解就是根据“By”指定的规则对数据进行分组
2016-08-12 21:45:50 222
转载 STL的erase()陷阱-迭代器失效总结
下面材料整理自Internet&著作。 STL中的容器按存储方式分为两类,一类是按以数组形式存储的容器(如:vector 、deque);另一类是以不连续的节点形式存储的容器(如:list、set、map)。在使用erase方法来删除元素时,需要注意一些问题。 1.list,set,map容器 在使用 list、set 或 map遍历删除某些元素时可以这样使用: 1.
2016-08-12 00:04:34 1400
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人