python特征衍生_Python机器学习算法入门指南(全)

最新推荐文章于 2024-04-21 12:09:52 发布

thinkAnA

最新推荐文章于 2024-04-21 12:09:52 发布

阅读量1.1k

点赞数

文章标签： python特征衍生

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42421177/article/details/113984781

版权

本文介绍了机器学习的基础概念，包括监督学习和非监督学习，并详细阐述了机器学习建模流程，重点讨论了特征工程的各个环节，如数据预处理、特征提取、异常值和缺失值处理、数据离散化和标准化。还提到了模型训练、评估和选择，并提供了Python实战示例，以 iris 数据集训练分类模型。

摘要由CSDN通过智能技术生成

前言

机器学习作为人工智能领域的核心组成，是计算机程序学习数据经验以优化自身算法，并产生相应的“智能化的”建议与决策的过程。

一个经典的机器学习的定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

1 机器学习概论

机器学习是关于计算机基于数据分布，学习构建出概率统计模型，并运用模型对数据进行分析与预测的方法。按照学习数据分布的方式的不同，主要可以分为监督学习和非监督学习：

1.1 监督学习

从有标注的数据(x为变量特征空间, y为标签)中，通过选择的模型及确定的学习策略，再用合适算法计算后学习到最优模型，并用模型预测的过程。

按照模型预测结果Y的取值有限或者无限的，可再进一步分为分类模型或者回归模型；

1.2 非监督学习：

从无标注的数据(x为变量特征空间)，通过选择的模型及确定的学习策略，再用合适算法计算后学习到最优模型，并用模型发现数据的统计规律或者内在结构。

按照应用场景，可以分为聚类，降维和关联分析等模型。

2 机器学习建模流程

2.1 明确业务问题

明确业务问题是机器学习的先决条件，这里需要抽象出现实业务问题的解决方案：需要学习什么样的数据作为输入，目标是得到什么样的模型做决策作为输出。

(如：一个简单的新闻分类问题的场景，就是学习已有的新闻及其类别标签数据，得到一个文本分类模型，通过模型对每天新的新闻做类别预测，以归类到每个新闻频道。)

2.2 数据选择：收集及输入数据

数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。

意味着数据的质量决定了模型的最终效果，在实际的工业应用中，算法通常占了很小的一部分，大部分工程师的工作都是在找数据、提炼数据、分析数据。数据选择需要关注的是：

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。