监督学习与非监督学习

一、监督学习

     监督学习(Supervised Learning)是机器学习的一种类型,其中模型通过学习输入到输出的映射来进行训练。在监督学习中,我们有一个由标签或已知结果的数据集进行训练。这个训练数据集包含输入数据和相应的正确输出。模型通过学习这些示例来预测新的、未知的数据。

监督学习可以分为两类问题:回归(Regression)和分类(Classification)。

  1. 回归问题:当我们的输出是连续值时,问题就变成了回归问题。例如,预测房价、股票价格等。

  2. 分类问题:当我们的输出是离散值时,问题就变成了分类问题。例如,识别电子邮件是否为垃圾邮件,或者识别图片中的物体类型等。

1、回归

  回归问题中通常使用均方损失函数(MSE)来作为度量模型效果的指标,最简单的求解例子是最小二乘法。

 均方误差损失函数(Mean Squared Error,MSE): 最常用的回归问题的损失函数。其定义为预测值与真实值之间的平方差的平均值。该损失函数的值越小,表示模型的预测结果越接近真实值。

 1.1 损失函数

(1)定义:损失函数,可以理解为是一种衡量模型预测结果好坏的“尺子”

在机器学习中,我们有一个模型,这个模型的工作是根据输入的数据做出预测。但是,我们怎么知道它预测得准不准呢?这时候就需要一个标准来评判,这个标准就是损失函数。损失函数会计算模型的预测值和真实值之间的差距,这个差距我们通常称之为“损失”。

举例: 你在玩射箭,靶心就是你的真实值,你的箭就是你的模型预测值,损失函数就像是计算你的每一箭离靶心有多远的仪器。你的目标就是让每一箭都尽可能靠近靶心,也就是让损失函数的值尽可能小。

1.2 应用

回归分析是统计学中用来估计变量之间关系的方法,具体可以分为简单线性回归和多元线性回归。以下是对这两种回归的分析:

  • 简单线性回归:这种回归模型涉及一个自变量(预测器)和一个因变量(响应)。它的目的是找到最佳的直线,即线性方程,来描述自变量和因变量之间的关系。
  • 多元线性回归:当研究中涉及到一个因变量和多个自变量时,就需要使用多元线性回归。这种回归模型允许我们同时考虑多个自变量对因变量的影响。

线性回归在生活中的应用非常广泛,它是一种统计学方法,用于研究两个或多个变量之间的关系。以下是一些具体的应用场景:

  1. 经济分析:在经济学领域,线性回归可以用来预测未来的经济趋势,如通货膨胀率、失业率、股市走势等。通过分析历史数据,建立自变量(如时间、政策变动等)与因变量(如经济指标)之间的线性关系,从而对未来进行预测。
  2. 医学研究:在医学研究中,线性回归可以帮助分析药物剂量与治疗效果之间的关系,或者研究某种疾病的发病率与环境因素之间的关联。
  3. 社会科学:在社会科学研究中,线性回归可以用来分析教育水平、收入水平与社会流动性之间的关系,为政策制定提供依据。
  4. 工程技术:在工程领域,线性回归可以用来预测材料的强度与压力之间的关系,或者优化生产过程,提高产品质量和效率。
  5. 市场营销:在市场营销中,线性回归可以帮助分析广告支出与销售额之间的关系,为企业的广告投放策略提供数据支持。

2、分类

   监督学习中的分类问题是指,给定一些数据,其中每个数据都有一个标签或类别,我们需要根据这些数据构建一个模型,使得该模型能够对新的数据进行分类。

 2.1 准确率(Accuracy)

准确率(Accuracy):对于测试集中D个样本,有k个被正确分类,D-k个被错误分类,则准确率为:

   然而在一些特殊的分类问题中,属于各类的样本的并不是均一分布,甚至其出现概率相差很多个数量级,这种分类问题称为不平衡类问题。

由于样本不平衡的问题,导致了得到的高准确率结果含有很大的水分。即如果样本不平衡,准确率就会失效。

2.2 精确率(查准率)- Precision

   精确率(查准率)- Precision :所有被预测为正样本中实际为正样本的概率

   精准率代表对正样本结果中的预测准确程度。 准确率则代表整体的预测准确程度,既包括正样本,也包括负样本。

2.3召回率(查全率)- Recall

召回率(查全率)- Recall:实际为正的样本中被预测为正样本的概率

 召回率的应用场景: 比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。 召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错杀一千,绝不放过一个。 召回率越高,也代表网络可以改进的空间越大。

2.4 PR曲线

  把精确率(Precision)和召回率(Recall)之间的关系用图来表达,就是下面的PR曲线:

       平衡点(BEP)P=R

 AP(Average Precision):PR曲线下的面积。 通常来说一个越好的分类器,AP值越高 mAP是多个类别AP的平均值。这个mean的意思是对每个类的AP再求平均,得到的就是mAP的值,mAP的大小一定在[0,1]区间,越大越好。该指标是目标检测算法中最重要的一个

 二、无监督学习

无监督学习就像是在一本没有目录的书中寻找模式和组织结构。具体来说,它是一种机器学习的训练方式,不需要预先给数据打上标签或分类。它的目的是让机器自己从一堆混杂的数据中发现规律和结构。无监督学习就是让机器自己在没有明确指示的情况下,通过分析数据中的模式和关系来学习和发现知识

想象一下,你有一堆不同颜色的珠子,无监督学习就像是让你根据珠子的特征将它们分成几组,而不需要提前知道每种颜色的名字。在这个过程中,你可能会发现一些珠子颜色相近,自然而然地将它们归为一组,这就是聚类的概念。或者,你可能会觉得某些特征不重要,比如珠子的光泽,于是你可能会忽略这个特征,只根据颜色来分组,这个过程就是降维。

1、 聚类问题

   聚类问题,简单来说,就是将一堆相似的数据分到同一个组里。这个过程就像是给玩具分类,把汽车放在一起,把娃娃放在一起,让相似的东西待在一起。

聚类有很多种方法,比如:

  • 层次聚类:这种方法是一步一步地合并或分裂数据,就像我们整理书架上的书一样,可以一层一层地把相关的书放在一起。
  • K-means算法:这是一种很常见的聚类方法,它先随机选择几个中心点,然后把其他的数据点分到最近的中心点那里,接着再调整中心点的位置,反复这个过程,直到找到最合适的分组方式。

2、主成分分析(principal component analysis)问题(PCA)

  主成分分析PCA是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维

3、 因果关系(causality)和概率图模型(probabilistic graphical models)问题:如果想通过物体a去推断物体b,就是将物体a放在这里会增加物体b出现概率的多少,想要找到这样一个确定的促进关系即因果关系 往往会被confounder干扰到,而这个confounder就是物体a与b之间的共因。

4、生成对抗性网络(generative adversarial networks):为我们提供一种合成数据的方法,甚至像图像和音频这样复杂的非结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试,它是无监督学习的另一个重要而令人兴奋的领域。

5、无监督学习衡量指标

  •  直观检测:这是一种非量化的方法。 例如对文本的主题进行聚类,我们可以在直观上判断属于同一个类的文本是否具有某个共同的主题,这样的分类是否有明显的语义上的共同点。
  • 基于任务的评价: 如果聚类得到的模型被用于某个特定的任务,我们可以维持该任务中其他的设定不变,使用不同的聚类模型,通过某种指标度量该任务的最终结果来间接判断聚类模型的优劣。
  • 人工标注测试集:有时候采用非监督学习的原因是人工标注成本过高,导致标注数据缺乏,只能使用无标注数据来训练。 在这种情况下,可以人工标注少量的数据作为测试集,用于建立量化的评价指标。

三、小结

   监督学习与非监督学习主要针对数据集定义。 有监督数据集需要人工标注,成本较为昂贵,但是在训练模型时往往能够保障效果。 无监督数据集一般不需要过多人工操作,可以通过爬虫等方式自动大量获得。

   由于没有监督信息的约束,需要设计巧妙的学习算法才能有效利用无监督数据集训练模型,不过大量廉价数据可以从另一个方面提高模型性能。 模型评估需要根据模型的训练历史判断模型是否处于欠拟合或过拟合状态。尽管有一定的规律作为指导,而且有一些工具可以辅助分析,但是模型的评估过程一般需要较为丰富的经验。 读者可以在深度学习实验中有意识地训练自己的模型评估能力。

  • 27
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值