第九章习题

最新推荐文章于 2024-10-12 16:55:46 发布

随.变.

最新推荐文章于 2024-10-12 16:55:46 发布

阅读量254

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_50765975/article/details/126709894

版权

机器学习专栏收录该内容

17 篇文章 3 订阅

订阅专栏

1.如何定义聚类？你能列举几种聚类算法吗？

在机器学习中，聚类是将相似的实例组合在一起的无监督任务。相似性的概念取决于你手头的任务：例如，在某些情况下，两个附近的实例将被认为是相似的，而在另一些情况下，只要它们属于同一密度组，则相似的实例可能相距甚远。流行的聚类算法包括K-Means、 DBSCAN、聚集聚类、BIRCH、均值平移、亲和度传播和光谱聚类。

2.聚类算法的主要应用有哪些？

聚类算法的主要应用包括数据分析、客户分组、推荐系统、搜索引擎、图像分割、半监督学习、降维、异常检测和新颖性检测。

3.描述两种使用K-Means时选择正确数目的集群的技术。

肘部法则是一种在使用K-Means时选择集群数的简单技术：将惯量（从每个实例到其最近的中心点的均方距离）作为集群数量的函数绘制出来，并找到曲线中惯量停止快速下降的点（“肘”）。另一种方法是将轮廓分数作为集群数量的函数绘制出来。通常最佳集群数是在一个高峰的附近。轮廓分数是所有实例上的平均轮廓系数。对于位于集群内且与其他集群相距甚远的实例，该系数为+1；对于与另一集群非常接近的实例，该系数为-1。你也可以绘制轮廓图并进行更细致的分析。

4.什么是标签传播？为什么要实施它，如何实现？

标记数据集既昂贵又费时。因此，通常有很多未标记的实例，很少有标记的实例。标签传播是一种技术，该技术包括将部分（或全部）标签从已标记的实例复制到相似的未标记实例。这可以大大增加标记实例的数量，从而使监督算法达到更好的性能（这是半监督学习的一种形式）。一种方法是在所有实例上使用诸如K-Means之类的聚类算法，然后为每个集群找到最常见的标签或最具代表性的实例（即最接近中心点的实例）的标签并将其传播到同一集群中未标记的实例。

5.你能否说出两种可以扩展到大型数据集的聚类算法？两个寻找高密度区域的算法？

K均值和BIRCH可以很好地扩展到大数据集。DBSCAN和Mean-Shift 寻找高密度区域。

6.你能想到一个主动学习有用的示例吗？你将如何实施它？

当你有大量未标记的实例而做标记非常昂贵时，主动学习就非常有用。在这种情况下（非常常见），与其随机选择实例来做标记，不如进行主动学习，这通常是更可取的一种方法，人类专家可以与算法进行交互，并在算法有需要时为特定实例提供标签。常见的方法是不确定性采样

7.异常检测和新颖性检测有什么区别？

许多人把术语异常检测和新颖性检测互换，但是它们并不完全相同。在异常检测中，算法对可能包含异常值的数据集进行训练，目标通常是识别这些异常值（在训练集中）以及新实例中的异常值。在新颖性检测中，该算法在假定为“干净”的数据集上进行训练，其目的是严格在新实例中检测新颖性。某些算法最适合异常检测（例如隔离森林），而其他算法更适合新颖性检测（例如单类SVM）。