七月算法机器学习笔记5 -- 特征工程

这套笔记是跟着七月算法四月机器学习班的学习而记录的,主要记一下我再学习机器学习的时候一些概念比较模糊的地方,具体课程参考七月算法官网:http://www.julyedu.com/

特征工程

特征 => 数据中抽取出来的对结果预测有用的信息
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
这里写图片描述

数据与特征处理

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

特征处理中不同类型的的特征的处理

  • 数值型
    这里写图片描述
    统计值
    这里写图片描述

离散化:落在区段中为1,其余为0
这里写图片描述
柱状统计

  • 类别型
    这里写图片描述
    这里写图片描述
    对于最后一个变量,即登陆口岸,由三个口岸,即开三个位置:【s,q,c】,则第一个数据的值为【1,0,0】
    要说明的是,离散化和one_hot编码是不一样的,离散化是对落在一个区段的数值标记1。是对数据的非线性处理
    这里写图片描述
    bucket就是一个桶,假如我们把John likes to作为一个词集,那么,这个词集在文档1中都有出现,在doc2中出现了两个词,doc3中出现了一次,就构成了bucket1.
    这里写图片描述
    根据目标,将特征用统计的方法表示,比如,上图定义男性:【由1/3的男性喜欢散步,2/3的喜欢足球,没有人喜欢看电视

  • 日期型
    这里写图片描述

  • 文本型
    这里写图片描述
    这里写图片描述

  • 统计型
    这里写图片描述

特征处理示例:
这里写图片描述
这里写图片描述
这里写图片描述

  • 组合特征:
    这里写图片描述

特征选择

这里写图片描述
这里写图片描述
过滤型方式简单粗暴
这里写图片描述
这里写图片描述

参考资料:
七月算法:机器学习四月班:http://www.julyedu.com/
图片来自于课程PPT

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值