精通特征工程（一）机器学习流程

最新推荐文章于 2024-07-25 12:50:29 发布

劫持的程序流

最新推荐文章于 2024-07-25 12:50:29 发布

阅读量422

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lyy_427/article/details/140144464

版权

#此篇为学习笔记，资料、图片来源图灵程序设计丛书《精通特征工程》阿曼达 .卡萨丽、爱丽丝.郑著

1.数据

我们所说的数据是对现实世界的现象观测。

每份数据都是管中窥豹，只能反映一小部分现实，把这些观测综合起来才能得到一个完整的描述。但这个描述非常散乱，因为它由成千上万个小片段组成，而且综述存在测量噪声何缺失值。

2.任务

从数据中得到答案，不被杂乱的工具与系统所迷惑，就能发现这个过程包括两个机器学习基础的数学实体：模型和特征

数据处理工作流往往是多阶段的迭代过程。

引用书上的例子“股票价格是在交易所中观测到的，然后由像汤森路透这样的中间机构进行汇集并保存到数据库中，之后被某个公司买去，转换为一个Hadoop集群上的Hive仓库，再被某个脚本从仓库中读出，进行二次抽样和各种处理，接着通过另一个脚本进行清洗，导出到一个文件，转换为某种格式，然后你使用R、Python或Scala中你最喜欢的建模程序进行试验。接着，预测结果被导出为一个CSV文件，再用一个估值程序进行解析。模型会被迭代多次，由产品团队用C++或Java重写，并在全部数据上运行，然后最终的预测结果会输出到另一个数据库中保存起来”。

3.模型

通过数据来理解世界就像是玩拼图，但这副拼图是杂乱且不完整的，而且带有多余的部分。这时数学模型——特别是统计模型——就派上用场了。

统计语言中有很多概念，可以描述常见的数据特征，比如错误数据、冗余数据和缺失数据。

数据的数学模型描述了数据不同部分之间的关系。

4.特征

特征是原始数据的数值表示。

特征工程就是在给定数据、模型和任务的情况下设计出最适合的特征的过程。

特征的数量也很重要。如果没有足够的有信息量的特征，模型将不能完成最终任务。如果特征过多，或者多数特征不合适，那么模型将很难训练而且训练成本高昂。

5.模型评价

特征和模型位于原始数据和我们想得到的知识之间。在机器学习流程中，我们不仅要选择模型，还有特征。模型与特征相辅相成，好的特征可以使随后的建模步骤更加容易，最后得出的模型也更能完成任务。坏的特征想要达到同等的性能，则需要复杂得多的模型。

劫持的程序流

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
精通特征工程（一）机器学习流程

关于作者本人的看书笔记和特征工程学习心得
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。