无监督学习引入
一、引入
在实际工作中,我们经常会遇到这样一类问题:给机器输入大量的特征数据,并期望机器通过学习找到数据中存在的某种共性特征或者结构,抑或是数据之间存在的某种关联。例如,视频网站根据用户的观看行为对用户进行分组从而建立不同的推荐策略,或是寻找视频播放是否流畅与用户是否退订之间的关系等。这类问题被称作是 非监督学习 问题,它并不是像有监督学习那样希望预测某种输出结果。
相比较于监督学习,非监督学习的输入数据没有标签信息,需要通过算法模型来挖掘数据内在的结构和模式。非监督学习主要包含两大类学习方法:数据聚类和特征变量关联。其中,聚类算法往往是通过多次迭代来找到数据的最优分割,而特征变量关联则是利用各种相关性分析方法来找到变量之间的关系。
二、概念
无监督学习:是指在未加标签的数据中,根据数据之间本身的属性特征和关联性对数据进行区分,相似相近或关联性强的数据放在一起,而不相似不相近、关联性不强的数据不放在一起。
无监督学习的本质是:利用无标签的数据学习数据的分布或数据与数据之间的关系。
无监督学习最常应用的场景是部分降维算法、聚类算法和关联算法。
- 有监督学习与无监督学习
- 有监督学习中,如分类问题,要求事先必须明确知道各个类别的信息,其建立的前提是所有待分类项都有一个类别与之对应。但实际上分类问题可能获取到的数据记录对应的类别信息无法明确,尤其是处理海量数据时,如果通过预处理对数据进行打标,以满足分类算法的要求,代价非常大。
- 有监督学习中最常见的是分类问题,而无监督学习中最常见的是聚类问题,聚类问题不依赖预定义的类和类标号的训练实例。关注事物本身的特征分析。
- 比如电商对用户信息和购买行为数据进行聚类分析,目的是找到大量级的且有一定相似度的客户群,就可以针对该用户群共有的行为特征投放广告和其他营销活动。
三、聚类
3.1 概念
聚类分析是分析研究对象(样品或变量)如何按照多个方面的特征进行综合分类的一种多元统计方法,它是根据物以类聚的思想将相似的样品(或变量)归为一类。
-
把对象分为不同的类别,类别是依据数据的特征确定的。
-
把相似的东西放在一起,类别内部的差异尽可能小,类别之间的差异尽可能的大。
-
作用
- 作为单独过程,用于对数据进行打标,即数据画像。
- 作为分类等其他学习任务的前驱过程,如聚类算法可以作为一些监督算法的前驱过程。
性能度量:通过某种性能度量,对聚类结果的好坏进行评估。
-
聚类性能度量一般分两类:
-
外部指标:将聚类结果与某个“参考模型”进行比较,如将聚类学习结果与业务专家给出的划分结果进行比较。
-
内部指标:直接考察聚类结果不利用任何参考模型。
-
3.2 距离计算
常用的距离度量方法包括:欧几里得距离(简称欧氏距离)和余弦相似度,两者都是评定个体间差异的大小的。
欧氏距离会受指标不同单位刻度影响,需要先对数据进行标准化,在聚类问题中,如果两个样本点的欧氏距离越大,表示两者差异越大。如下表示两个
p
p
p 维的样本点
X
i
X_i
Xi ,
X
j
X_j
Xj 之间的欧氏距离
d
(
X
i
,
X
j
)
d(X_i,X_j)
d(Xi,Xj) :
d
(
X
i
,
X
j
)
=
∣
x
i
1
−
x
j
1
∣
2
+
∣
x
i
2
−
x
j
2
∣
2
+
⋯
+
∣
x
i
p
−
x
j
p
∣
2
d(X_i,X_j)=\sqrt{|x_{i1}−x_{j1}|^2+|x_{i2}−x_{j2}|^2+ \dots +|x_{ip}−x_{jp}|^2}
d(Xi,Xj)=∣xi1−xj1∣2+∣xi2−xj2∣2+⋯+∣xip−xjp∣2
余弦相似度不会受指标刻度的影响,余弦值落于区间
[
−
1
,
1
]
[-1,1]
[−1,1],值越大,差异越小。如
c
o
s
(
θ
)
=
X
i
,
×
X
j
∣
X
i
∣
∣
X
j
∣
cos(\theta)=\frac{X_i,×X_j}{|X_i||X_j|}
cos(θ)=∣Xi∣∣Xj∣Xi,×Xj表示样本点
X
i
X_i
Xi ,
X
j
X_j
Xj的余弦相似度,此时将样本点看作
p
p
p 维向量处理。
3.3 应用场景
-
作为其他分析任务的前置过程
- 对数据本身进行一定的聚类后再进行其他建模算法,比如先聚类再分类。
-
离群点检测
-
离群点检测是数据挖掘中重要应用,任务就是发现与大部分观察对象显著不同的对象,大部分的数据挖掘方法会将这种差异信息视作噪声进行预处理,但是另外的一些应用中,离群点本身携带有重要的异常信息,是需要被关注和研究的。
离群点检测已经被广泛应用到电信、信用卡诈骗检测,贷款审批,电子商务,网络入侵和天气预报等领域,甚至可以利用离群点检测分析运动员的统计数据,以发现异常运动员。离群点检测的任务是发现与大部分其它对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声丢弃,然而在部分情况下,罕见的数据可能蕴含着更大的研究价值。
-
应用方式:
- 利用聚类算法,找到远离其他簇的小簇;
- 首先聚类所有对象,然后评估对象属于簇的程度,对不同距离的点进行打分。
-
-
用户画像构建方面:
- 根据客户数据,将相似性较高的客户聚为一类,打标签,进行客户类别细分。
-
业务推荐和精准营销方面:
-
用户画像构建方面:
- 根据客户数据,将相似性较高的客户聚为一类,打标签,进行客户类别细分。
-
业务推荐和精准营销方面:
- 通过构建用户画像进行业务推荐和精准营销。