Python 全栈体系【四阶】（四）

柠檬小帽

已于 2024-02-21 05:51:32 修改

阅读量1k

点赞数 24

分类专栏： Python全栈体系文章标签： python 开发语言

于 2023-12-12 22:00:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sgsgkxkx/article/details/134917485

版权

Python全栈体系专栏收录该内容

64 篇文章

订阅专栏

本文介绍了人工智能及其学科体系，重点阐述了机器学习的基本概念、形式和分类，包括有监督、无监督、半监督和强化学习。涵盖了学习过程、典型应用以及基本问题如回归、分类、聚类和降维，为读者提供了机器学习的全面理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第四章机器学习

一、人工智能概述

1. 什么是人工智能

人工智能（Artificial Intelligence）是计算机科学的一个分支学科，主要研究用计算机模拟人的思考方式和行为方式，从而在某些领域代替人进行工作。

2. 人工智能的学科体系

以下是人工智能学科体系图：

在这里插入图片描述

机器学习（Machine Learning）：人工智能的一个子学科，研究人工智能领域的基本算法、原理、思想方法，机器学习研究的内容在其它子学科都会用到
计算机视觉（Computer Vision）：研究计算机处理、识别、理解图像、视频的相关技术
自然语言处理（Natural Language Processing）：研究计算机理解人类自然语言的相关技术
语言处理：研究计算机理解识别、理解、合成语音的相关技术

3. 人工智能与传统软件的区别

传统软件：执行人的指令和想法，在执行之前人已经有了解决方案，无法超越人的思想和认识范围

人工智能：尝试突破人的思想和认识范围，让计算机学习到新的能力，尝试解决传统软件的难题

在这里插入图片描述

二、机器学习基本概念

1. 什么是机器学习

1975 年图灵奖获得者、1978 年诺贝尔经济学奖获得者、著名学者赫伯特.西蒙（Herbert Simon）曾下过一个定义：如果一个系统，能够通过执行某个过程，就此改进了它的性能，那么这个过程就是学习。由此可看出，学习的目的就是改善性能。

卡耐基梅隆大学机器学习和人工智能教授汤姆.米切尔（Tom Mitchell）在他的经典教材《机器学习》中，给出了更为具体的定义：对于某类任务（Task，简称 T）和某项性能评价准则（Performance，简称 P），如果一个计算机在程序 T 上，以 P 作为性能度量，随着经验（Experience，简称 E）的积累，不断自我完善，那么我们称计算机程序从经验 E 中进行了学习。

在这里插入图片描述

例如，篮球运动员投篮训练过程：球员投篮（任务 T），以准确率为性能度量（P），随着不断练习（经验 E），准确率不断提高，这个过程称为学习。

2. 为什么需要机器学习

程序自我升级

解决那些算法过于复杂，甚至没有已知算法的问题

在机器学习的过程中，协助人类获得事物的洞见

3. 机器学习的形式

3.1 建模问题

所谓机器学习，在形式上可近似等同于在数据对象中通过统计、推理的方法，来寻找一个接受特定输入 X，并给出预期输出 Y 功能函数 f，即 $Y = f (x)$ 。这个函数以及确定函数的参数被称为模型。

3.2 评估问题

针对已知的输入，函数给出的输出（预测值）与实际输出（目标值）之间存在一定误差，因此需要构建一个评估体系，根据误差大小判定函数的优劣。

3.3 优化问题

学习的核心在与改善性能，通过数据对算法的反复锤炼，不断提升函数预测的准确性，直至获得能够满足实际需求的最优解，这个过程就是机器学习。

4. 机器学习的分类（重点）

4.1 有监督、无监督、半监督学习

4.1.1 有监督学习

在已知数据输出（经过标注的）的情况下对模型进行训练，根据输出进行调整、优化的学习方式称为有监督学习。

在这里插入图片描述

在训练数据中，有输出数据（类别标签）的为有监督学习。

4.1.2 无监督学习

没有已知输出的情况下，仅仅根据输入信息的相关性，进行类别的划分。

在这里插入图片描述

在训练数据中，没有输出数据（类别标签）的为无监督学习。

4.1.3 半监督

先通过无监督学习划分类别，再人工标记通过有监督学习方式来预测输出。例如先对相似的水果进行聚类，再识别是哪个类别。

在这里插入图片描述

4.1.4 强化学习

通过对不同决策结果的奖励、惩罚，使机器学习系统在经过足够长时间的训练以后，越来越倾向于接近期望结果的输出。

4.2 批量学习、增量学习

4.2.1 批量学习

将学习过程和应用过程分开，用全部训练数据训练模型，然后再在应用场景中进行预测，当预测结果不够理想时，重新回到学习过程，如此循环。

4.2.2 增量学习

将学习过程和应用过程统一起来，在应用的同时，以增量的方式不断学习新的内容，边训练、边预测。

4.3 基于模型学习、基于实例学习

4.3.1 基于模型的学习

根据样本数据，建立用于联系输出和输出的某种数学模型，将待预测输入带入该模型，预测其结果。例如有如下输入输出关系：

输入（x）	输出（y）
1	2
2	4
3	6
4	8

根据数据，得到模型 $y = 2 x$

预测：输入 9 时，输出是多少？

4.3.2 基于实例的学习

根据以往经验，寻找与待预测输入最接近的样本，以其输出作为预测结果（从数据中心找答案）。例如有如下一组数据：

学历(x1)	工作经验(x2)	性别(x3)	月薪(y)
本科	3	男	8000
硕士	2	女	10000
博士	2	男	15000

预测：本科，3，男 ==> 薪资？

5. 机器学习的一般过程（重点）

5.1 数据收集

手段如手工采集、设备自动化采集、爬虫等

5.2 数据清洗

数据规范、具有较大误差的、没有意义的数据进行清理

注：以上称之为数据处理，包括数据检索、数据挖掘、爬虫…

5.3 选择模型（算法）

5.4 训练模型

5.5 模型评估

5.6 测试模型

注：3~6 步主要是机器学习过程，包括算法、框架、工具等…

5.7 应用模型

5.8 模型维护

6. 机器学习的典型应用

股价预测

推荐算法

自然语言处理

语音处理：语音识别、语音合成

图像识别、人脸识别

……

7. 机器学习的基本问题（重点）

7.1 回归问题

根据已知的输入和输出，寻找某种性能最佳的模型，将未知输出的输入代入模型，得到连续的输出。例如：

根据房屋面积、地段、修建年代以及其它条件预测房屋价格
根据各种外部条件预测某支股票的价格
根据农业、气象等数据预测粮食收成
计算两个人脸的相似度

（预测值为连续值）

7.2 分类问题

根据已知的输入和输出，寻找性能最佳的模型，将未知输出的输入带入模型，得到离散的输出。例如：

手写体识别（10 个类别分类问题）
水果、鲜花、动物识别
工业产品瑕疵检测（良品、次品二分类问题）
识别一个句子表达的情绪（正面、负面、中性）

（预测值为离散值）

7.3 聚类问题

根据已知输入的相似程度，将其划分为不同的群落，例如：

根据一批麦粒的数据，判断哪些属于同一个品种
根据客户在电商网站的浏览和购买历史，判断哪些客户对某件商品感兴趣
判断哪些客户具有更高的相似度

7.4 降维问题

在性能损失尽可能小的情况下，降低数据的复杂度，数据规模缩小都称为降维问题。

8. 机器学习大纲

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

柠檬小帽 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。