python特征衍生_Python机器学习算法入门指南(全)

本文介绍了机器学习的基础概念,包括监督学习和非监督学习,并详细阐述了机器学习建模流程,重点讨论了特征工程的各个环节,如数据预处理、特征提取、异常值和缺失值处理、数据离散化和标准化。还提到了模型训练、评估和选择,并提供了Python实战示例,以 iris 数据集训练分类模型。
摘要由CSDN通过智能技术生成

前言

机器学习 作为人工智能领域的核心组成,是计算机程序学习数据经验以优化自身算法,并产生相应的“智能化的”建议与决策的过程。

一个经典的机器学习的定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

1 机器学习概论

机器学习是关于计算机基于数据分布,学习构建出概率统计模型,并运用模型对数据进行分析与预测的方法。按照学习数据分布的方式的不同,主要可以分为监督学习和非监督学习:

0f28f495de86311d88cc0c78ccd47d35.png

1.1 监督学习

从有标注的数据(x为变量特征空间, y为标签)中,通过选择的模型及确定的学习策略,再用合适算法计算后学习到最优模型,并用模型预测的过程。

按照模型预测结果Y的取值有限或者无限的,可再进一步分为分类模型或者回归模型;

0e282a0a01dd4dfeb8e10b676e59411c.png

1.2 非监督学习:

从无标注的数据(x为变量特征空间),通过选择的模型及确定的学习策略,再用合适算法计算后学习到最优模型,并用模型发现数据的统计规律或者内在结构。

按照应用场景,可以分为聚类,降维和关联分析等模型。

fed235b2dbc2d5f663b5745ac39ae7e1.png

2 机器学习建模流程

93e2b601f8ef990e14b7fd7c7c7c18f7.png

2.1 明确业务问题

明确业务问题是机器学习的先决条件,这里需要抽象出现实业务问题的解决方案:需要学习什么样的数据作为输入,目标是得到什么样的模型做决策作为输出。

(如:一个简单的新闻分类问题的场景,就是学习已有的新闻及其类别标签数据,得到一个文本分类模型,通过模型对每天新的新闻做类别预测,以归类到每个新闻频道。)

d6f63db30e3a828ca4212ebbf221223e.png

2.2 数据选择:收集及输入数据

数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。

意味着数据的质量决定了模型的最终效果,在实际的工业应用中,算法通常占了很小的一部分,大部分工程师的工作都是在找数据、提炼数据、分析数据。数据选择需要关注的是:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值