机器学习监督学习-CSDN博客

本文链接：https://blog.csdn.net/a1111111111ss/article/details/105914355

卷积神经网络（强烈推荐这是机器学习非常重要的一个）
https://blog.csdn.net/a1111111111ss/article/details/105900137

监督学习
概念

1、选择一个适合目标任务的数学模型
2、先把一部分已知的“问题和答案”（训练集）给机器去学习
3、机器总结出了自己的“方法论”
4、人类把”新的问题”（测试集）给机器，让他去解答

监督学习有2个主要的任务：

回归
分类
回归：预测连续的、具体的数值。比如：支付宝里的芝麻信用分数(下面有详细讲解)

分类：对各种事物分门别类，用于离散型（什么是离散？）预测。

算法传送门

机器学习临近算法
https://blog.csdn.net/a1111111111ss/article/details/105913646

机器学习支持向量机SVM
https://blog.csdn.net/a1111111111ss/article/details/105912962

机器学习逻辑回归线性回归
https://blog.csdn.net/a1111111111ss/article/details/105913480

机器学习决策树
https://blog.csdn.net/a1111111111ss/article/details/105905010

机器学习最小二乘法
https://blog.csdn.net/a1111111111ss/article/details/105914573

机器学习朴素贝叶斯
https://blog.csdn.net/a1111111111ss/article/details/105904723

机器学习ReLU函数
https://blog.csdn.net/a1111111111ss/article/details/105899635

监督学习算法总结与图解
1、机器学习决策树
https://blog.csdn.net/a1111111111ss/article/details/105905010

总结

决策树是一种树形结构，为人们提供决策依据，决策树可以用来回答yes和no问题，它通过树形结构将各种情况组合都表示出来，每个分支表示一次选择（选择yes还是no），直到所有选择都进行完毕，最终给出正确答案。
决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。在实际构造决策树时，通常要进行剪枝，这时为了处理由于数据中的噪声和离群点导致的过分拟合问题。剪枝有两种：
先剪枝——在构造过程中，当某个节点满足剪枝条件，则直接停止此分支的构造。
后剪枝——先构造完成完整的决策树，再通过某些条件遍历树进行剪枝。

图解
在这里插入图片描述
2、机器学习朴素贝叶斯
https://blog.csdn.net/a1111111111ss/article/details/105904723

朴素贝叶斯分类器基于贝叶斯定理及其假设（即特征之间是独立的，是不相互影响的），主要|
用来解决分类和回归问题。
具体应用有：
标记一个电子邮件为垃圾邮件或非垃圾邮件；将新闻文章分为技术类、政治类或体育类；检查一段文字表达积极的情绪，或消极的情绪；用于人脸识别软件。
学过概率的同学一定都知道贝叶斯定理，这个在250多年前发明的算法，在信息领域内有着无与伦比的地位。贝叶斯分类是一系列分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯算法（Naive Bayesian）是其中应用最为广泛的分类算法之一。
朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。

3、机器学习最小二乘法
https://blog.csdn.net/a1111111111ss/article/details/105914573

总结

你可能听说过线性回归。最小均方就是用来求线性回归的。如下图所示，平面内会有一系列点，然后我们求取一条线，使得这条线尽可能拟合这些点分布，这就是线性回归。这条线有多种找法，最小二乘法就是其中一种。最小二乘法其原理如下，找到一条线使得平面内的所有点到这条线的欧式距离和最小。这条线就是我们要求取得线。

图解
在这里插入图片描述

4、机器学习逻辑回归线性回归
https://blog.csdn.net/a1111111111ss/article/details/105913480

总结

逻辑回归模型是一个二分类模型，它选取不同的特征与权重来对样本进行概率分类，用一个log函数计算样本属于某一类的概率。即一个样本会有一定的概率属于一个类，会有一定的概率属于另一类，概率大的类即为样本所属类。用于估计某种事物的可能性。

图解
在这里插入图片描述

5、机器学习支持向量机SVM
https://blog.csdn.net/a1111111111ss/article/details/105912962

总结

支持向量机（support vector machine）是一个二分类算法，它可以在N维空间找到一个（N-
1）维的超平面，这个超平面可以将这些点分为两类。也就是说，平面内如果存在线性可分的两类点，SVM可以找到一条最优的直线将这些点分开。SVM应用范围很广。

图解
在这里插入图片描述
要将两类分开，想要得到一个超平面，最优的超平面是到两类的margin达到最大，margin就是超平面与离它最近一点的距离，如下图，Z2>Z1，所以绿色的超平面比较好。

6、机器学习临近算法
https://blog.csdn.net/a1111111111ss/article/details/105913646

总结
邻近算法，或者说K最近邻（KNN，K-NearestNeighbor）分类算法是数据挖掘分类技术中最简单的方法之一。KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

图解
在这里插入图片描述

7、集成学习
集成学习就是将很多分类器集成在一起，每个分类器有不同的权重，将这些分类器的分类结果合并在一起，作为最终的分类结果。最初集成方法为贝叶斯决策
。
整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。
常见的算法包括：
Boosting，Bootstrapped Aggregation（Bagging），AdaBoost，堆叠泛化（Stacked Generalization，Blending），梯度推进机（Gradient Boosting Machine，GBM），随机森林（Random Forest）。
那么集成方法是怎样工作的，为什么他们会优于单个的模型？
他们拉平了输出偏差：如果你将具有民主党倾向的民意调查和具有共和党倾向的民意调查取平均，你将得到一个中和的没有倾向一方的结果。
它们减小了方差：一堆模型的聚合结果和单一模型的结果相比具有更少的噪声。在金融领域，这被称为多元化——多只股票的混合投资要比一只股票变化更小。这就是为什么数据点越多你的模型会越好，而不是数据点越少越好。
它们不太可能产生过拟合：如果你有一个单独的没有过拟合的模型，你是用一种简单的方式（平均，加权平均，逻辑回归）将这些预测结果结合起来，然后就没有产生过拟合的空间了。
在这里插入图片描述