机器学习基础认识

最新推荐文章于 2024-07-24 14:31:04 发布

小白1000

最新推荐文章于 2024-07-24 14:31:04 发布

阅读量678

点赞数 24

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_74152166/article/details/138068299

版权

本文介绍了人工智能、机器学习和深度学习的基本概念、它们之间的关系，以及机器学习在各个领域的应用历史。文章还详细讲述了机器学习的关键要素和常用术语，包括样本、特征、标签、数据集划分、算法分类和建模流程。

摘要由CSDN通过智能技术生成

◆ 人工智能三大概人工智能（AI）、机器学习（ML）和深度学习（DL）

1.1 学习目标

1.1.1. 知道AL，ML，DL是什么？

1.1.2. 了解 AL、ML、DL之间的关系

1.1.3. 知道自动学习和规则编程的区别

1.2 人工智能的概念

1.2.1 什么是人工智能？

人工智能（Artificial Intelligence，简称AI）是一种模拟人类智能的技术。它涉及使计算机系统能够执行需要人类智能的任务，例如学习、推理、问题解决、感知、语言理解等。人工智能的目标是创建能够模仿人类思维方式和行为的系统，使它们能够自主地执行复杂的任务，甚至能够学习和改进自己的性能。AI 的应用领域非常广泛，包括自然语言处理、计算机视觉、机器人技术、专家系统、智能推荐系统等。

1.2.2 AI的期望

人工智能的期望是通过模拟人类智能的方式，使计算机系统具有更高的智能水平和自主性，从而能够执行更加复杂和高级的任务

1.3 机器学习

1.3.1 什么是机器学习？

机器学习（Machine Learning，简称ML）是人工智能（AI）的一个子领域，它专注于研究如何使计算机系统能够从数据中学习和改进，而无需进行明确的编程。机器学习的核心思想是通过算法让机器从数据中学习模式和规律，然后利用这些知识来做出预测或决策。

1.3.2 机器如何学习

1.4 深度学习

1.5.1 什么是深度学习？

深度学习是机器学习的一个子领域，它基于神经网络的概念，特别是深度神经网络（Deep Neural Networks, DNNs）。深度学习模型通过模仿人脑的工作方式来处理数据，它们能够学习复杂的模式，并在许多任务中实现前所未有的性能，比如图像和语音识别、自然语言处理、自动驾驶汽车等。

1.5 三者之间的关系

1.6.1 机器学习是实现人工智能的一种途径

1.6.2 深度学习是机器学习的一种方法

高级软件

◆ 机器学习的应用领域和发展史

2.1 了解机器学习的应用领域

图像识别和分类：包括人脸识别、图像检索、物体识别等2。
自然语言处理：涉及机器翻译、文本分类、语音识别等24。
推荐系统：在电商、社交媒体等平台中用于商品推荐、内容推荐等2。
医疗诊断：应用于癌症诊断、疾病预测等2。
金融风控：包括欺诈检测、信用评估等2。
工业制造：用于质量控制、异常检测等2。
自动驾驶：涉及视觉感知、路况识别等24。
游戏智能：包括游戏AI、机器人足球等2。
网络安全：用于恶意代码检测、网络攻击识别等2。
环境保护：如气象预测、大气污染监测等2。
搜索引擎：机器学习用于提升搜索结果的相关性和准确性1。
军事决策：在战略规划和决策支持系统中发挥作用1。
数据挖掘：从大量数据中发现模式和知识1。
生物特征识别：用于个人身份验证，如指纹、虹膜扫描等1。
智能制造：在自动化生产线中进行预测性维护和优化生产流程2。
环境保护：用于气候模拟、生态系统分析等2。
人工智能助手：如智能手机中的虚拟助手，使用机器学习来更好地理解用户需求和提供个性化服务2。
文字识别（OCR）：将图片或扫描件中的文字识别成可编辑的文本，提升业务效率

2.2 人工智能的发展史

人工智能（AI）的发展史是一个充满创新、挑战和不断进步的过程。从20世纪中叶到现在，AI经历了几个明显的阶段：

起步发展期（1943年—20世纪60年代）：人工智能的概念首次在1956年的达特茅斯会议上被提出，这标志着人工智能学科的诞生。早期的研究集中在逻辑推理和问题解决上，出现了如“Logic Theorist”和“General Problem Solver”这样的程序123。
反思发展期（20世纪60年代—70年代初）：在初期的乐观和投资之后，AI遭遇了第一次寒冬，因为一些宏伟的目标未能实现，导致了资金的减少和研究的停滞28。
应用发展期（20世纪70年代初—80年代中）：专家系统的出现使得AI开始在特定领域得到应用，如医疗、地质等。这些系统能够模拟专家的决策过程，为AI的实际应用铺平了道路21。
低迷发展期（20世纪80年代中—90年代中）：随着专家系统的限制逐渐显现，AI的发展进入了一段相对缓慢的时期，研究者开始探索新的方法和技术2。
稳步发展期（20世纪90年代中—2010年）：互联网技术的发展推动了AI的创新研究，AI技术开始走向实用化。IBM的深蓝超级计算机在1997年战胜世界冠军棋手，成为AI发展的一个重要里程碑2。
蓬勃发展期（2011年至今）：大数据、云计算、互联网和物联网的发展为AI提供了强大的数据和计算支持。深度学习技术的进步，特别是卷积神经网络（CNN）在图像识别和语音识别中的成功应用，推动了AI技术的飞速发展和广泛应用28。
当前和未来趋势：AI正从专用智能向通用智能发展，同时人机混合智能和自主智能系统也是研究的热点。AI与其他学科领域的交叉渗透日益加深，产业应用不断扩展，同时国际竞争也在加剧29。

2.3 机器学习发展三要素

机器学习的发展依赖于三个核心要素：算法（Algorithms）、数据（Data）和计算能力（Computation）。这三个要素共同推动了机器学习技术的进步和应用的广泛性。

算法（Algorithms）：
- 算法是机器学习的核心，它们定义了数据输入和输出之间的处理规则。
- 早期的算法包括决策树、最近邻算法、线性回归等，而现代算法则包括深度学习中的卷积神经网络（CNN）、循环神经网络（RNN）、生成对抗网络（GAN）等。
- 算法的设计和优化是机器学习研究的一个重要方向。
数据（Data）：
- 数据是机器学习的基础，算法通过数据进行训练和学习。
- 随着互联网和物联网技术的发展，数据量呈现爆炸式增长，为机器学习提供了丰富的训练材料。
- 数据的质量和多样性直接影响到机器学习模型的性能。
计算能力（Computation）：
- 计算能力是实现机器学习算法的关键，特别是在处理大规模数据集和复杂模型时。
- 近年来，图形处理器（GPU）和专用集成电路（ASICs）的发展极大地提高了并行计算能力，加速了机器学习模型的训练过程。
- 云计算平台的兴起也使得机器学习服务变得更加可访问和经济。

◆ 机器学习常用术语

3.1样本、特征、标签

3.1.1 样本 (sample) ：一行数据就是一个样本；多个样本组成数据集；有时一条样本被叫成一条记录

3.1.2 特征 (feature) ：一列数据一个特征，有时也被称为属性

3.1.3 标签 / 目标 (label/target) ：模型要预测的那一列数据。

3.1.4 特征如何理解（重点）：特征是从数据中抽取出来的，对结果预测有用的信息

3.2 数据集划分

3.2.1 数据集可划分两部分：训练集、测试集比例： 8 : 2 ， 7 : 3

3.2.2 训练集 (training set) ：用来训练模型（ model ）的数据集

3.2.3 测试集 (testing set) ：用来测试模型的数据

◆ 机器学习算法分类

4.1 有监督学习

定义：输入数据是由输入特征值和目标值所组成。
-函数的输出可以每一个连续的值(称为回归)；

-或是输出是有限个离散值（称作分类)。

（1）回归问题

例如︰预测房价，根据样本集拟合出一条连续曲线。

（2）分类问题

例如：根据肿瘤特征判断良性还是恶性，得到的是结果是“良性"或者“恶性”，是离散的。

4.2 无监督学习

定义：输入数据是由输入特征值组成。
输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类(聚类，clustering)试图使类内差距最小化，类间差距最大化。

无监督学习特点： 1 训练数据无标签

2 根据样本间的相似性对样本集进行聚类，发现事物内部结构及相互关系

4.3 半监督学习

工作原理：

1 让专家标注少量数据，利用已经标记的数据（也就

是带有类标签）训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比

4.4 强化学习

4.4.1 强化学习（Reinforcement Learning）：机器学习的一个重要分支

4.4.2 应用场景：里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

4.4.3 基本原理：通过构建四个要素：agent，环境状态，行动，奖励，

agent根据环境状态进行行动获得最多的累计奖励。

4.5 小结

监督学习与非监督学习
- 监督学习：算法从标记的训练数据中学习，每个输入数据都有一个对应的输出标签。目标是学习到一个模型，能够对新的、未见过的数据做出预测。
- 非监督学习：算法处理未标记的数据，尝试找出数据的内在结构和模式。常用于聚类、关联规则学习和降维。
半监督学习与强化学习
- 半监督学习：介于监督学习和非监督学习之间，使用大量未标记数据和少量标记数据进行训练。
- 强化学习：算法通过与环境的交互来学习，目标是最大化累积奖励。