美团机器学习实践笔记（二）

最新推荐文章于 2023-04-29 07:45:00 发布

Jellyqin

最新推荐文章于 2023-04-29 07:45:00 发布

阅读量303

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tengchengtu4139/article/details/100022503

版权

特征工程

据和特征决定了机器学习算法的上限，而模型和算法只是
不断逼近这个上限而已

2.1 特征提取

根据机器学习算法所要学习的目标和业务逻辑，我们需要考虑数据中有哪些可能相关的要素。
例如在美团酒店搜索排序中，酒店的销量、价格、用户的消费水平等是强相关的因素，用户的年龄、位置可能是弱相关的因素，用户的D是完全无关的因素。在确定了哪些因素可能与预测目标相关后，我们需要将此信息表示为数值类型，即为特征抽取的过程。

2.1.1 探索性数据分析

在统计学里，探索性数据分析( Expl orat。可Data Analysis , EDA) 是采用各种技术(大部分为可视化技术)在尽量少的先验假设条件下，探索数据内部结构和规律的一种数据分析方法或理念。

EDA技术通常可分为两类。一类是可视化技术，如箱形图、直方图、多变量图、链图、|怕累托图、散点图、茎叶图、平行坐标、让步比、多维尺度分析、目标投影追踪、主成分分析、多线性主成分分析、降维、非线性降维等;另一类是定量技术，如样本均值、方差、分位数、峰度、偏度等。

2.1.2 数值特征

数值类型的数据具有实际测量意义，例如人的身高、体重、Jfrl压等，或者是计数，例如一个网站被浏览多少次、一种产品被购买多少次等(统计学家也称数值类型的数据为定量数据)。数值类型的数据可以分为离散型和连续型。

机器学习模型可以直接将数值类型的数据格式作为输入，但这并不意味着没有必要进行特征工程。好的特征不仅能表示出数据中隐藏的关键信息，而且还与模

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
美团机器学习实践笔记（二）

特征工程据和特征决定了机器学习算法的上限，而模型和算法只是不断逼近这个上限而已2.1 特征提取根据机器学习算法所要学习的目标和业务逻辑，我们需要考虑数据中有哪些可能相关的要素。例如在美团酒店搜索排序中，酒店的销量、价格、用户的消费水平等是强相关的因素，用户的年龄、位置可能是弱相关的因素，用户的D是完全无关的因素。在确定了哪些因素可能与预测目标相关后，我们需要将此信息表示为数值类型，即...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。