第九章习题

1.如何定义聚类?你能列举几种聚类算法吗?

在机器学习中,聚类是将相似的实例组合在一起的无监督任务。 相似性的概念取决于你手头的任务:例如,在某些情况下,两个附近的实例将被认为是相似的,而在另一些情况下,只要它们属于同一密度组,则相似的实例可能相距甚远。流行的聚类算法包括K-Means、 DBSCAN、聚集聚类、BIRCH、均值平移、亲和度传播和光谱聚类。

2.聚类算法的主要应用有哪些?

聚类算法的主要应用包括数据分析、客户分组、推荐系统、搜索 引擎、图像分割、半监督学习、降维、异常检测和新颖性检测。

3.描述两种使用K-Means时选择正确数目的集群的技术。

肘部法则是一种在使用K-Means时选择集群数的简单技术:将惯量(从每个实例到其最近的中心点的均方距离)作为集群数量的函数绘制出来,并找到曲线中惯量停止快速下降的点(“肘”)。另一种方法是将轮廓分数作为集群数量的函数绘制出来。通常最佳集群数是在一个高峰的附近。轮廓分数是所有实例上的平均轮廓系数。对于位于集群内且与其他集群相距甚远的实例,该系数为+1;对于与另一集群非常接近的实例,该系数为-1。你也可以绘制轮廓图并进行更细致的分析。

4.什么是标签传播?为什么要实施它,如何实现?

标记数据集既昂贵又费时。因此,通常有很多未标记的实例,很少有标记的实例。标签传播是一种技术,该技术包括将部分(或全部) 标签从已标记的实例复制到相似的未标记实例。这可以大大增加标记实例的数量,从而使监督算法达到更好的性能(这是半监督学习的一种形 式)。一种方法是在所有实例上使用诸如K-Means之类的聚类算法,然后为每个集群找到最常见的标签或最具代表性的实例(即最接近中心点的实例)的标签并将其传播到同一集群中未标记的实例。

5.你能否说出两种可以扩展到大型数据集的聚类算法?两个寻找高密度区域的算法?

K均值和BIRCH可以很好地扩展到大数据集。DBSCAN和Mean-Shift 寻找高密度区域。

6.你能想到一个主动学习有用的示例吗?你将如何实施它?

当你有大量未标记的实例而做标记非常昂贵时,主动学习就非常有用。在这种情况下(非常常见),与其随机选择实例来做标记,不如进行主动学习,这通常是更可取的一种方法,人类专家可以与算法进行交互,并在算法有需要时为特定实例提供标签。常见的方法是不确定性采样

7.异常检测和新颖性检测有什么区别?

许多人把术语异常检测和新颖性检测互换,但是它们并不完全相同。在异常检测中,算法对可能包含异常值的数据集进行训练,目标通常是识别这些异常值(在训练集中)以及新实例中的异常值。在新颖性检测中,该算法在假定为“干净”的数据集上进行训练,其目的是严格在新实例中检测新颖性。某些算法最适合异常检测(例如隔离森林), 而其他算法更适合新颖性检测(例如单类SVM)。

8.什么是高斯混合模型?你可以将其用于哪些任务?

高斯混合模型(GMM)是一种概率模型,它假定实例是由参数未知的多个高斯分布的混合生成的。换句话说,我们假设数据可以分为有限数量的集群,每个集群具有椭圆的形状(但是集群可能具有不同的椭圆形状、大小、方向和密度),而我们不知道每个实例属于哪个簇。该模型可用于密度估计、聚类和异常检测。

9.使用高斯混合模型时,你能否列举两种技术来找到正确数量的集群?

使用高斯混合模型时,找到正确数量的集群的一种方法是将贝叶斯信息准则(BIC)或赤池信息准则(AIC)作为集群数量的函数绘制出来,然后选择使BIC或AIC最小化的集群数量。另一种技术是使用贝叶斯高斯混合模型,该模型可以自动选择集群数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值