美团机器学习实践笔记(二)

特征工程

据和特征决定了机器学习算法的上限,而模型和算法只是
不断逼近这个上限而已

2.1 特征提取

根据机器学习算法所要学习的目标和业务逻辑,我们需要考虑数据中有哪些可能相关的要素。
例如在美团酒店搜索排序中,酒店的销量、价格、用户的消费水平等是强相关的因素,用户的年龄、位置可能是弱相关的因素,用户的D是完全无关的因素。在确定了哪些因素可能与预测目标相关后,我们需要将此信息表示为数值类型,即为特征抽取的过程。

2.1.1 探索性数据分析

在统计学里,探索性数据分析( Expl orat。可Data Analysis , EDA) 是采用各种技术(大部分为可视化技术)在尽量少的先验假设条件下,探索数据内部结构和规律的一种数据分析方法或理念。

EDA技术通常可分为两类。一类是可视化技术,如箱形图、直方图、多变量图、链图、|怕累托图、散点图、茎叶图、平行坐标、让步比、多维尺度分析、目标投影追踪、主成分分析、多线性主成分分析、降维、非线性降维等;另一类是定量技术,如样本均值、方差、分位数、峰度、偏度等。

2.1.2 数值特征

数值类型的数据具有实际测量意义,例如人的身高、体重、Jfrl压等,或者是计数,例如一个网站被浏览多少次、一种产品被购买多少次等(统计学家也称数值类型的数据为定量数据)。数值类型的数据可以分为离散型和连续型。

机器学习模型可以直接将数值类型的数据格式作为输入,但这并不意味着没有必要进行特征工程。好的特征不仅能表示出数据中隐藏的关键信息,而且还与模

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值