监督和无监督、分类和回归算法总结

最新推荐文章于 2024-03-14 09:27:49 发布

VIP文章小麦粒

最新推荐文章于 2024-03-14 09:27:49 发布

阅读量1.1w

点赞数 10

分类专栏：基本概念深度学习

本文链接：https://blog.csdn.net/u010986753/article/details/100046239

版权

文章目录

一、监督学习
- 1.1 监督学习介绍
- 1.2 分类
- 1.3 回归
二、无监督学习
三、线性回归
- 3.1 线性回归介绍
- 3.2 线性回归在统计学意义
- 3.3 变量的选择
四、K近邻
- 4.1 K近邻介绍
- 4.2 KNN 业务实践
五、Logistic 回归
- 5.1 Logistic 回归介绍
- 5.2 举例
- 5.3 线性回归和逻辑回归区别
- 5.4 特征个数的选择
- 5.5 过拟合
六、朴素贝叶斯
- 6.1 朴素贝叶斯介绍
- 6.2 朴素贝叶斯分类的优缺点优点
- 6.3 总结
七、支持向量机
- 7.1 支持向量机介绍
- 7.2 支持向量机
- 7.3 逻辑斯蒂回归和SVM联系
八、降维
- 8.1 线性判别分析介绍
- 8.2 LDA监督学习降维技术
- 8.3 举例
- 8.4 LDA和PCA区别
- 8.5 LDA小结
- 8.6 降维中K值的选择
九、决策树
- 9.1 常用的决策树算法
- 9.2 分类和回归树介绍
- 9.3 CART算法步骤
- 9.4 GINI 指数
- 9.5 CART与ID3和C4.5的区别
- 9.6 决策树的减枝
十、学习矢量量化
- 9.1 矢量量化介绍
- 9.2 总结
十、模型融合
- 10.1 套袋随机林介绍
- 10.2 随机森林的优缺点
- 10.3 随机森林的评价指标--袋外误差（oob error）
- 10.4 随机森林的生成过程
- 10.5 Bagging算法（套袋法）
- 10.6 Boosting（提升法）
- 10.7 Bagging，Boosting的主要区别
- 10.8 决策树与集成学习结合得到的新的算法
- 10.9 AdaBoost 介绍
- 10.11 AdaBoost 原理理解
- 10.12 装袋法（bagging）和随机森林（random forests）的区别
总结
有趣的事，Python永远不会缺席
证书说明

数据和模型 https://blog.csdn.net/u010986753/article/details/98526886

一、监督学习

1.1 监督学习介绍

根据已有的数据集，知道输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型。也就是说，在监督学习中训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。

监督学习可以分为两类：分类和回归。

1.2 分类

分类问题预测数据所属的类别；和回归最大的区别在于，分类是针对离散型的，输出的结果是有限的。
分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测、估计肿瘤性质（恶性瘤是危险的、有害的；良性瘤是无害的）等。

1.3 回归

回归问题是针对于连续型变量的。回归问题根据先前观察到的数据预测数值；
回归的例子包括房价预测、股价预测、身高-体重预测等。

回归通俗一点就是，对已经存在的点（训练数据）进行分析，拟合出适当的函数模型y=f(x)，这里y就是数据的标签，而对于一个新的自变量x，通过这个函数模型得到标签y。

二、无监督学习

我们不知道数据集中数据、特征之间的关系，而是要根据聚类或一定的模型得到数据之间的关系。可以这么说，比起监督学习，无监督学习更像是自学，让机器学会自己做事情，是没有标签（label）的。
无监督学习是指一个数据集，我们不知道要拿他来干嘛，也不知道每个数据样本数据点是什么，我们只被告知这是一个数据集，那么对于一个这样的数据集，无监督学习只能判断数据集中的存在的数据子集，并且把其划分为各个簇，对于无监督学习，我们不能事先知道这些数据能带给我们什么样的信息，只有在学习后我们才能大概得出结论

三、线性回归

3.1 线性回归介绍

线性回归可能是统计和机器学习中最著名和最容易理解的算法之一。
线性回归的表示是描述一条最适合输入变量(X)和输出变量(Y)之间关系的方程，它通过为输入变量找到称为系数(w)的特定权重。
例如： $y = b + w * x$

在给定输入x的情况下，我们预测y，线性回归学习算法的目标是找到系数b和w的值。

3.2 线性回归在统计学意义

在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。（这反过来又应当由多个相关的因变量预测的多元线性回归区别，而不是一个单一的标量变量。）
回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线