机器学习基础了解

又秃又弱

已于 2022-09-08 15:57:06 修改

阅读量674

点赞数

分类专栏：机器学习笔记文章标签：机器学习

于 2022-08-21 22:02:59 首次发布

本文链接：https://blog.csdn.net/qq_53830608/article/details/126455764

版权

机器学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

前言

随着人工智能的不断发展，机器学习这门技术也越来越重要，作为人工智能的核心研究领域之一，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

一、机器学习定义

机器学习：Machine Learning

机器接收数据，不接受指令，利用数据完成指令。机器学习方法是计算机利用已有的数据，得到了某种模型，并利用此模型预测未来的一种方法。利用经验（数据）来改善计算机系统自身的性能。

研究动机：让计算机系统具有人的学习能力，以便实现人工智能。

利用数据->训练模型->预测模型

二、机器学习与数据挖掘的区别与联系

数据挖掘：识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

数据挖掘可以视为机器学习和数据库的交叉，它主要利用机器学习届提供的技术来分析海量数据，利用数据库届的数据来管理海量数据，二者既有区别又有联系，总体来说，机器学习偏理论，数据挖掘偏应用。

三、模型评估

在学习得到的模型投放使用之前，通常需要对其进行性能评估，为此，就需要一个“测试集”来测试模型对新样本的泛化能力，然后以测试集上的“测试误差”作为泛化误差的近似。假设测试集是从样本真实分布中独立采样得到的，所以测试集要和训练集中的样本尽量互斥，及测试集和训练集是两个没有交集的训练集集合。

给定一个已知的数据集，将数据集拆分为训练集S和测试集T，通常做法包括留出法、交叉验证发、自助法。

留出法：直接将数据集分成两个互斥的集合。在划分时，测试集和训练集要尽可能保持数据分布的一致性。为减小因样本划分不同而引入的差别，一般需要进行若干次随即划分，重复实验然后取其平均值。通常训练样本和测试样本的比例可以为2：1，3：1或者4：1。

交叉验证法：将数据集分层采样划分为k个大小相同或者相似的互斥子集，每次使用K-1个子集的并集作为训练集，剩余的子集作为测试集，最终返回K个测试结果的均值，K一般取值为10。与留出法类似，将数据集D划分为K个自己同样存在多种划分的方式，为了减少因样本划分不同而引入的差别，K折交叉验证，通常随机使用不同的划分重复P次，最终评估结果时才P次K折交叉验证的均值，例如常见的“10次10折交叉验证”。

自助法：以自主采样法为基础，对数据集D有放回采样m次得到训练集D'，D/D'作为测试集。在自助法中实际模型和预期模型都使用m个训练样本，约有1/3的样本没有出现在训练集中，用作测试集。从初始数据集中产生多个不同的训练集，对集成学习有很大的好处。在数据集较小时，难以有效划分训练集和测试集时，很有用。但由于改变了数据集分布可能引入的估计偏差，在数据量足够时，留出法和交叉验证发更常用

四、评估指标

评估指标：衡量模型泛化能力好坏的评估标准，反映了任务需求。使用不同的评估指标往往会导致不同的评估结果。主要通过准确率和错误率来进行评估。但准确率和错误率只能在分类平衡的数据集中使用，在类不平衡数据集中，一般分：正确分类稀有类、正确分类多数类，而查准率/查全率比准确率/错误率更合适。

统计真实标记和分类结果的组合可以得到如下所示分类结果的“混淆矩阵”：

由此也可看出，查准率和查全率是一对矛盾的评估指标。查准率高时，查全率往往低，反之亦然。因此，为综合考虑查准率和查全率，引入F1度量的概念：

条件似然性CLL：可以直接用来度量分类器的类概率估计的性能。

五、机器学习范围

机器学习与模式识别，统计学习，数据挖掘，计算机视觉，语音识别，自然语言处理等领域有着很深的联系。一般说数据挖掘时，可以等同于机器学习。

（1）模式识别

模式识别=机器学习，区别在于，模式识别源自于工业界，机器学习来自于计算机学科。

（2）数据挖掘

数据挖掘=机器学习+数据库。

（3）统计学习

近似等于机器学习。

（4）计算机视觉

计算机视觉=图像处理+机器学习。

（5）语音识别

语音识别=语音处理+机器学习。

（6）自然语言处理

文本学习+机器语言。

六、机器学习的方法

（1）回归算法

分类：线性回归、逻辑回归。

①线性回归：拟合，最小二乘法，求函数极值问题。数值计算（梯度下降法、牛顿法）

②逻辑回归：分类算法，线性的

（2）神经网络

①BP算法（加速神经网络训练过程的数值算法）

分解和整合

输入层（接收信号），隐藏层（对数据分解和处理），输出层

LeNet：识别手写数字

（3）SVM（支持向量机）

逻辑回归算法的强化

“核”：将低维的空间映射到高维的空间

支持向量机：数学成分很浓；神经网络：生物科学成分很浓

（4）聚类算法

显著特征：训练数据中不含标签，而算法的目的是通过训练，推测出这些数据的标签，称为无监督算法。无监督算法中最典型的代表是聚类算法。该算法上面的算法都是有监督算法，该算法及以下都是无监督算法。

K-Means算法

（5）降维算法

无监督算法

特征：将数据从高维降到低维层次，维度其实表示是数据的特征量的大小。（例如用面积表示长和宽，进行降维）

主要作用：压缩数据和提升机器学习其他算法的效率，将数据可视化（例如将5维降为2维，然后可以用二维平面来可视

降维算法主要代表是PCA算法（即主成分分析算法）

（6）推荐算法

在电商界很火

主要特征是自行向用户推荐他们感兴趣的东西

类别：

①基于物品内容的推荐，将近似物推荐

②基于用户相似度的推荐，将目标用户感兴趣相同的进行推荐

（7）其他

监督学习算法：线性回归、逻辑回归、神经网络
特殊算法：推荐算法
子算法：①梯度下降法：主要运用在线性回归，逻辑回归，神经网络，推荐算法。②牛顿法：主要运用在线性回归。③BP算法：主要运用在神经网络。④SMO算法：主要运用在SVM中。

七、机器学习的应用——大数据

应用场景：

2010年之前，应用在某些特定领域，如车牌识别，网络攻击防范，手写字体等

之后，与大数据高度耦合

大数据：

大数据核心是利用数据的价值，机器学习是利用数据价值的关键技术。

大数据分类：

1.大数据，小分析：即数据仓库领域OLAP分析思路，也就是多维分析思想。

2.大数据，大分析：达标是数据挖掘和机器学习分析法

3.流式分析：主要指事件驱动改构

4.查询分析：经典代表是NoSQL

成功的机器学习应用不是拥有更好的算法，而是拥有更多的数据。

八、机器学习的子类——深度学习

BP算法的发明人Geoffery Hinton在2006年发表的文章论述了两个观点：1.多隐层的神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2.深度神经网络在训练上的难度，可以通过“逐层初始化”来有效克服。
具有多个隐藏层的神经网络被称为深度神经网络，基于深度神经网络的学习研究称为之深度学习。