数据挖掘学习日记1·有监督学习与无监督学习

任务

* 了解以下概念:

    > 监督式学习

    > 非监督式学习

* 了解一种数据挖掘(机器学习)算法,并了解案例

有监督学习和无监督学习

构建机器学习模型包括:选择建模技术,并在数据集中应用该技术。从高层次上区分,有两种类型的建模技术:监督学习和无监督学习。

▲ 基本流程:准备原料--> 模型学习 --> 模型评价

构建模型之后,使用标准指标(如准确性、精确度、召回率)来评估其表现,若模型没有提供预期的结果,那么将回退到上一步:获取不同数据,以不同方式预处理、清理数据,使用不同特征,选取不同模型。

监督学习

  • 建模目的:由机器学习算法学习如何将一组特征映射为目标变量的值。即,通过使用提供的示例来学习输入(特征/属性)和输出(目标变量/标签)之间的关联。
  • 原料:一批样本的(示例观测)训练集,每个样本由特征目标变量组成。
  • 模型:分类和回归。其中,分类的目标变量是离散的(e.g. 驾驶员风险水平),回归的变量是连续值(e.g. 预期价格)。
  • 模型评价 参考:有监督学习的模型评价
    • 欠拟合:没能很好地拟合数据。常见的原因有:数据不足、训练不足
    • 过拟合:拟合得太好,连噪声数据也一并拟合了;或仅学习了训练集数据,而没有得出一般规律,无法准确预测数据集外的数据
    • 参考:欠拟合、过拟合及其解决方法

下面举个例子。

  1. 为了备考,货比三家,买了一堆适合自己的卷子,这些卷子都是有答案的。
  2. 在刷题的过程中,不停重复“做题-->对答案”的过程,答对则已,若不符合标准答案,回头思考是哪做错了。
  3. 刷题过程中,学会了各类题目对应的答题模式。考场上,根据考题题目类型选择答题模式进行答题。
  4. 考后老师根据标准答案批改,并给出一个评分,以衡量阶段学习情况。

以上是监督学习的例子。

步骤一对应训练集准备,步骤二对应模式学习,步骤三对应数据预测,步骤四对应模型评价。

监督学习的应用:手写体识别、图像识别、垃圾邮件分类、网页检索、基因检测、股票预测。

无监督学习

  • 建模目的:不需标记的训练集,识别数据中的模式。
  • 模型:聚类、异常检测、频繁项集分析。

无监督学习中,输入数据只是一个没有目标变量(标签)的观测特征矩阵,故常用于探索性分析,以获得对数据的洞察或作为监督学习之前的一步。没有用以评价的参考数据。

下面举个例子。

为了备考,找老师要了一堆卷子。但是坑爹的,这些卷子没有答案!

两眼一摸黑,开始刷题。刷了半天也不知道自己答的题是对是错。但是!从这些卷子中了解到了出题人的出题模式,知道了这个出题老师大概偏重考哪一块知识,大概会有哪些题型,分值分布如何。根据这些信息好好复习,就可以上考场了。

以上是无监督学习的例子。

无监督学习的应用:聚类分类

【问题1】无监督学习是否需要训练集?

需要。无监督学习中,使用训练集进行模型拟合。

【问题2】无监督学习中,如何进行模型评价?

在无监督学习中,进行模型训练时,会使用测试集来提高模型的准确性。但由于没有带标签的数据集,真正的模型评价只能等目标事件真实发生后,用事实数据进行评价。

 

综上,监督学习和无监督学习的直观区别是:训练集是否带标签。特别注意,训练模型时要将数据集中的样本打乱、分类。

生活中,或者说在未来的生活中,无监督学习的应用场合多于监督学习。

要补充说明的是,我们也可以使用有标签的数据集进行无监督学习。即不使用标签列。

支持向量机

支持向量机(Support Vector Machine, SVM)是一个有监督学习模型,它是一种对线性和非线性数据分类的方法,是所有知名数据挖掘算法中最健壮、最准确的方法之一。

它使用一种非线性映射,把原训练数据映射到较高纬度上,在新的维度上搜索最佳分离超平面,即将一个类的元素与其它类分离的决策边界。

基本模型定义:特征空间上的间隔最大的线性分类器。

学习策略:使间隔最大化,最终转化为一个凸二次规划问题的求解。

SVM使用支持向量(基本训练元祖)和边缘(由支持向量定义)发现超平面。

  • 分离超平面:W * X + b = 0。其中W为权重向量;b为标量,即偏移量。
  • 边缘两侧超平面:
    • H1:W * X + b = 1;
    • H2:W * X + b = -1;

 

参考资料:

《大数据分析原理与实践》王宏志 机械工业出版社

《数据科学与大数据技术导论》 机械工业出版社

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值