机器学习算法口语化解读

最新推荐文章于 2024-09-14 20:23:55 发布

不想熬夜不想熬夜

最新推荐文章于 2024-09-14 20:23:55 发布

阅读量655

点赞数 20

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/m0_61783767/article/details/140819348

版权

注：该内容是本人通过学习机器学习做出的一些方便个人理解的口语化表达，并不牵扯复杂的公式计算，对于小白友好。

1、机器学习的本质

机器学习的本质就是通过训练大量的数据样本，使计算机不断学习得到一个模型，使用此模型来对新的未知数据进行预测。

2、强化学习

强化学习是在没有标签的情况下，通过尝试做出一些行为得到一个结果，通过结果是对是错的反馈来调整之前的行为，通过不断地调整，算法可以学习到在什么情况下选择什么行为可以获得一个比较好的结果。

举例：家里养了一只小狗，每当小狗把家里弄乱的时候，就给它减少食物的摄取（惩罚），每次表现比较好的时候就给他食物吃（奖励），这时小狗就会学到一个知识，就是把家里弄乱是个不好的行为。

3、有监督学习和无监督学习

有监督学习（分类、回归）是指将数据样本和标签输入给模型，模型学习数据样本和标签的映射关系，进而对新数据进行预测。

无监督学习（聚类）是指只将数据样本输入给模型，没有标签，模型通过抽取数据的一些特征来总结规律，从数据中挖掘出信息。

4、K-Means算法

算法流程如下：首先从数据集中随机选取 𝑘 个初始聚类中心 𝐶𝑗 (1 ≤ 𝑗 ≤ 𝑘) （注：该类簇中心不绝对是样本点），接下来对每个其余数据对象，均计算出该数据对象与 𝑘 个聚类中心的的欧式距离，并将离目标数据对象最近的聚类中心 𝐶𝑥 作为该数据对象所属的类别。经过这样一次迭代，就完成了一次 K-Means 聚类。接着计算每个簇中数据对象的平均值作为新的聚类中心，进行下一次迭代，直到聚类中心不再变化或达到最大的迭代次数时停止。

(a) 算法开始，将指定数据集的特征投影至 n 维欧氏空间；
(b) 随机选取 k = 2 个初始聚类中心；
(c) 对任意数据 x(𝑖) ，算出其与 k 个聚类中心的欧式距离，取其中距离最近的那个类簇作为数据 x(𝑖) 的所属类别（第一次 k-means）；
(d) 基于新的类簇分布，算出每个簇中数据对象的平均值作为新的聚类中心；
(e) 对任意数据 x(𝑖) ，算出其与 k 个聚类中心的欧式距离，取其中距离最近的那个类簇作为数据 x(𝑖) 的所属类别（第二次 k-means）；
(f) 基于新的类簇分布，算出每个簇中数据对象的平均值作为新的聚类中心；
原文链接： https://blog.csdn.net/the_ZED/article/details/128825236

5、线性回归和逻辑回归

线性回归：利用线性函数对一个或多个自变量和因变量之间的关系进行建模，建模过程就是使用数据点来寻找最佳拟合线（小学学的一元一次函数y=ax+b）.

逻辑回归：是一个非线性模型，sigmoid函数，又称逻辑回归函数。

线性回归是连续的，逻辑回归是二分类问题，如何用连续的标签去预测离散的标签值？（即从线性回归到逻辑回归的原因）

线性回归的输出是一个数值，不是标签，显然不能解决二分类问题，如何改进回归模型来预测标签呢？直接预测标签最直观的方法模型是感知机。另一种方法，不去直接预测标签，而是去预测标签为A的概率，一般认为概率 P>0.5 则标签为A，反之为B，这就是逻辑回归模型。

线性回归与逻辑回归对比
	线性回归	逻辑回归
参数估计方法	最小二乘法	极大似然法
问题类型	连续、用于回归问题	分类问题（二分类推广至多类）
输出类型	实数范围内的值	0-1之间的概率值，预测属于哪个类别
主要功能	拟合数据	区分数据，找到决策边界
联系函数	无	Sigmoid函数
代价函数	平方误差函数	交叉熵函数
损失函数	平方损失	对数损失
变量分布	服从正态分布	无要求

单位阶跃函数：小于0归为类别0，大于0归为类别1，等于0则都可以。

感知机：设置一个阈值0，若y>0属于标签A，反之属于标签B。

6、过拟合和欠拟合以及解决方法

过拟合是指数据在训练集上的结果很好，在测试集上的结果不好，参数变化太快没有学习到底层规律，模型抖动太大不稳定，以至于模型对数据没有泛化能力。

出现原因：可能是模型太过复杂。

解决方法：加入正则化、dropout、重新清洗数据、增加数据样本量、减少特征维度。

欠拟合是指在训练数据上都不能做到很好的拟合，在测试数据上更不能拟合，可能原因是样本量太少，模型学习不到更多的特征或是学习到许多无用的特征。

出现原因：学习到的数据特征太少。

解决：增加样本量、添加其他特征项（组合、泛化、相关性）。

	L1正则	L2正则
定义	权值向量中各个元素的绝对值之和例如：向量A=[1，-2，2]，那么A的L1范数为 \|1\|+\|-2\|+\|2\|	权值向量中各个元素平方和的平方根 $\sqrt{1^{2}+(-2)^{2}+2^{2}}$
适应场景	可以让一部分特征的系数缩小到0，适应于特征之间有关联的情况，可以产生稀疏权重矩阵	对参数进行二次约束，参数w变小，但不为零，不会形成稀疏解。它会使优化求解稳定快速，使权重平滑，适应于特征之间没有关联的情况

7、决策树

【机器学习】决策树（理论）-CSDN博客

决策树的关键在于，如何选择最优划分属性

决策树防止过拟合（预剪枝）：限制决策树的深度、叶子结点个数、叶子结点包含的样本数、限制决策树的最低信息增益

8、SVM

定义：支持向量机是一种二分类模型，他将实例的特征向量映射为空间中的一些点，SVM目的是划出一条线以”更好地“区分这两类点，以至以后有了新的点，这条线也能做出很好的分类。

适应场景：中小型数据样本、非线性、高维分类问题

画线标准：可以区分连个类别并且间隔最大化的超平面（高维样本特征下不再是一条线）

间隔：对于一个超平面，两侧数据点距离超平面的最小垂直距离（由支持向量决定）

支持向量：从下图可以看出，虚线上的点到超平面的距离是一样的，实际上只有这几个点共同确定了超平面的位置，因此被称为支持向量。

如果数据分布不规律，一条线不能有效划分该如何处理-->核方法

核方法：解决算法复杂度高和高维分类问题（从低维映射到高维）、以及线性不可分问题

SVM中转化为最优化问题求解的公式计算使用内积，把训练数据中的向量点转化到高维的非线性映射函数，算法复杂度非常大，所以用核函数来取代非线性映射函数的内积。

	h度多项式核函数	高斯径向基核函数(RBF)	S型核函数
公式	$K(x_{i},x_{j})=(x_{i},x_{j}+1)^{h}$	$K(x_{i},x_{j})=e^{-\|\|x_{i}-x_{j}\|\|^{2}/2\delta ^{2}}$	$K(x_{i},x_{j})=tanh(kx_{i}\cdot x_{j}-\delta )$