这套笔记是跟着七月算法四月机器学习班的学习而记录的,主要记一下我再学习机器学习的时候一些概念比较模糊的地方,具体课程参考七月算法官网:http://www.julyedu.com/
特征工程
特征 => 数据中抽取出来的对结果预测有用的信息
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
数据与特征处理
特征处理中不同类型的的特征的处理
- 数值型
统计值
离散化:落在区段中为1,其余为0
柱状统计
类别型
对于最后一个变量,即登陆口岸,由三个口岸,即开三个位置:【s,q,c】,则第一个数据的值为【1,0,0】
要说明的是,离散化和one_hot编码是不一样的,离散化是对落在一个区段的数值标记1。是对数据的非线性处理
bucket就是一个桶,假如我们把John likes to作为一个词集,那么,这个词集在文档1中都有出现,在doc2中出现了两个词,doc3中出现了一次,就构成了bucket1.
根据目标,将特征用统计的方法表示,比如,上图定义男性:【由1/3的男性喜欢散步,2/3的喜欢足球,没有人喜欢看电视日期型
文本型
统计型
特征处理示例:
- 组合特征:
特征选择
过滤型方式简单粗暴
参考资料:
七月算法:机器学习四月班:http://www.julyedu.com/
图片来自于课程PPT