机器学习｜监督学习｜无监督学习｜8:20~9:20

alwaysuzybai

于 2023-06-13 09:22:40 发布

阅读量967

点赞数

分类专栏：基地实训 # 机器学习实战文章标签：算法聚类数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57656758/article/details/128170100

版权

基地实训同时被 2 个专栏收录

43 篇文章 2 订阅

订阅专栏

机器学习实战

12 篇文章 0 订阅

订阅专栏

目录

一、监督学习(Supervised learning)

2.1分类(classification)

2.2回归(regression)

泛化能力 Generalization Ability

2.3 K近邻算法

二、无监督学习(Unsupervised learning)

2.1 聚类(clustering)

簇(或类)cluster

聚类和分类的区别

监督学习：分类、回归

无监督学习：聚类、降维

半监督学习：两者结合

自监督学习：无监督的一个分支

强化学习：基于环境反馈

一、监督学习(Supervised learning)

有明确的输入/输出对，输入为特征，输出为标签；

训练样本带有信息标记，利用已有的训练样本信息学习数据的规律预测未知的新样本标签。

常见场景：垃圾邮件处理、人脸识别、温度测量等分类和回归问题；

常见算法：逻辑回归(Logistic Regression)和神经网络、支持向量机、决策树。

$\bullet$ 2.1分类(classification)

分类是识别出一组数据的所属类别，目标是预测类别标签(Class Label),分类问题可分为二分类和多分类，在两个类别之间进行区分的情况为二分类，在两个以上的类别之间进行区分的情况为多分类。

$\bullet$ 2.2回归(regression)

回归的目标是预测一组连续值，编程术语叫作浮点数，数学术语叫作实数。

区分分类和回归有一个简单的方法，就是输出是否具有某种连续性，具有连续性则为回归问题，不存在连续性则为分类问题。

分类与回归的区别是输出空间的度量不同：

监督学习的目标是构建一个泛化精度尽可能高的模型。

泛化能力 Generalization Ability

指一个机器学习算法对于没有见过的样本的识别能力，也可以形象地称为举一反三的能力，或者称为学以致用的能力。根据测试数据预测的结果对比测试数据的标签，能够检测出此模型的泛化能力。

欠拟合

过拟合

不收敛

不收敛一般出现在一些基于梯度下降算法的模型中，收敛是指这个算法有能力找到局部的或者全局的最小值(比如找到使得预测的标签和真实的标签最相近的值，也就是两者距离的最小值)，从而得到一个问题的最优解。

2.3 K近邻算法

思路：在特征空间中，如果一个样本附近的K个最近(即特征空间中最邻近)样本的大多属于某一个类别，则该样本也属于这个类别。

k近邻分类

KNN算法选择的邻居都是已经正确分类的对象。

k近邻回归

通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的值。

用KNN算法在连续区间内对数值进行预测，这就是KNN回归。使用sklearn.neighbors.KNeighborsRegressor类。

KNN变种

二、无监督学习(Unsupervised learning)

在无监督学习中，数据只有输入特征，没有输出标签，学习模型是为了推断出数据的一些内在结构。

常见算法：关联规则(Apriori算法)、聚类(K-menas算法)、降维(PCA算法)

训练样本的标记信息是未知的，目的是为了揭露样本的内在属性、结构和信息，为进一步的数据挖掘提供基础。

$\bullet$ 2.1 聚类(clustering)

按照某一个特定的标准(比如距离)，把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不同簇内的数据对象差异性也尽可能大。

簇(或类)cluster

子集合，最大化簇内的相似性，最小化簇与簇之间的相似性。

聚类可以作为一个单独过程，用于寻找数据内在分布结构，也可以作为其他学习任务前驱过程。

聚类相似度度量标准：几何距离

$\bullet$ 降维(dimensionality reduction)

$\bullet$ 异常检测(outlier detection)

$\bullet$ 推荐系统(recommendation system)

聚类和分类的区别

聚类是无监督学习任务，不知道真实的样本标记，只把相似度高的样本聚合在一起；分类是监督学习任务，利用已知的样本标记训练学习器预测未知样本的类别。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。