数据挖掘学习日记1·有监督学习与无监督学习

最新推荐文章于 2024-06-17 11:51:43 发布

mustuo

最新推荐文章于 2024-06-17 11:51:43 发布

阅读量2.7k

点赞数 1

分类专栏：大数据 | 数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mustuo/article/details/88252073

版权

大数据 | 数据挖掘专栏收录该内容

15 篇文章 1 订阅

订阅专栏

任务

* 了解以下概念：

> 监督式学习

> 非监督式学习

* 了解一种数据挖掘（机器学习）算法，并了解案例

有监督学习和无监督学习

构建机器学习模型包括：选择建模技术，并在数据集中应用该技术。从高层次上区分，有两种类型的建模技术：监督学习和无监督学习。

▲ 基本流程：准备原料--> 模型学习 --> 模型评价

构建模型之后，使用标准指标（如准确性、精确度、召回率）来评估其表现，若模型没有提供预期的结果，那么将回退到上一步：获取不同数据，以不同方式预处理、清理数据，使用不同特征，选取不同模型。

监督学习

建模目的：由机器学习算法学习如何将一组特征映射为目标变量的值。即，通过使用提供的示例来学习输入（特征/属性）和输出（目标变量/标签）之间的关联。
原料：一批样本的（示例观测）训练集，每个样本由特征和目标变量组成。
模型：分类和回归。其中，分类的目标变量是离散的（e.g. 驾驶员风险水平），回归的变量是连续值（e.g. 预期价格）。
模型评价参考：有监督学习的模型评价
欠拟合：没能很好地拟合数据。常见的原因有：数据不足、训练不足
过拟合：拟合得太好，连噪声数据也一并拟合了；或仅学习了训练集数据，而没有得出一般规律，无法准确预测数据集外的数据
参考：欠拟合、过拟合及其解决方法

下面举个例子。

为了备考，货比三家，买了一堆适合自己的卷子，这些卷子都是有答案的。
在刷题的过程中，不停重复“做题-->对答案”的过程，答对则已，若不符合标准答案，回头思考是哪做错了。
刷题过程中，学会了各类题目对应的答题模式。考场上，根据考题题目类型选择答题模式进行答题。
考后老师根据标准答案批改，并给出一个评分，以衡量阶段学习情况。

以上是监督学习的例子。

步骤一对应训练集准备，步骤二对应模式学习，步骤三对应数据预测，步骤四对应模型评价。

监督学习的应用：手写体识别、图像识别、垃圾邮件分类、网页检索、基因检测、股票预测。

无监督学习

建模目的：不需标记的训练集，识别数据中的模式。
模型：聚类、异常检测、频繁项集分析。

无监督学习中，输入数据只是一个没有目标变量（标签）的观测特征矩阵，故常用于探索性分析，以获得对数据的洞察或作为监督学习之前的一步。没有用以评价的参考数据。

下面举个例子。

为了备考，找老师要了一堆卷子。但是坑爹的，这些卷子没有答案！

两眼一摸黑，开始刷题。刷了半天也不知道自己答的题是对是错。但是！从这些卷子中了解到了出题人的出题模式，知道了这个出题老师大概偏重考哪一块知识，大概会有哪些题型，分值分布如何。根据这些信息好好复习，就可以上考场了。

以上是无监督学习的例子。

无监督学习的应用：聚类分类

【问题1】无监督学习是否需要训练集？

需要。无监督学习中，使用训练集进行模型拟合。

【问题2】无监督学习中，如何进行模型评价？

在无监督学习中，进行模型训练时，会使用测试集来提高模型的准确性。但由于没有带标签的数据集，真正的模型评价只能等目标事件真实发生后，用事实数据进行评价。

综上，监督学习和无监督学习的直观区别是：训练集是否带标签。特别注意，训练模型时要将数据集中的样本打乱、分类。

生活中，或者说在未来的生活中，无监督学习的应用场合多于监督学习。

要补充说明的是，我们也可以使用有标签的数据集进行无监督学习。即不使用标签列。

支持向量机

支持向量机（Support Vector Machine, SVM）是一个有监督学习模型，它是一种对线性和非线性数据分类的方法，是所有知名数据挖掘算法中最健壮、最准确的方法之一。

它使用一种非线性映射，把原训练数据映射到较高纬度上，在新的维度上搜索最佳分离超平面，即将一个类的元素与其它类分离的决策边界。

基本模型定义：特征空间上的间隔最大的线性分类器。

学习策略：使间隔最大化，最终转化为一个凸二次规划问题的求解。

SVM使用支持向量（基本训练元祖）和边缘（由支持向量定义）发现超平面。

分离超平面：W * X + b = 0。其中W为权重向量；b为标量，即偏移量。
边缘两侧超平面：
- H1：W * X + b = 1;
- H2：W * X + b = -1;

参考资料：

《大数据分析原理与实践》王宏志机械工业出版社

《数据科学与大数据技术导论》机械工业出版社

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。