白话机器学习算法第2-5章读书笔记

最新推荐文章于 2022-12-13 20:53:20 发布

xxxTenc

最新推荐文章于 2022-12-13 20:53:20 发布

阅读量377

点赞数

分类专栏：白话机器学习算法读书笔记文章标签：机器学习

本文链接：https://blog.csdn.net/kyuzz/article/details/111185635

版权

白话机器学习算法读书笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

K均值聚类

聚类

聚类是通过识别共同的喜好或特征，把顾客分组，其中k表示群组个数。

定义群组

有多少个群组？

每个群组中有谁？

群组数量

群组数量越多，组内成员越相似，响铃群组之间的区别则越不明显

所以在决定群组数量时必须有所权衡

往大，便于提取有意义的模式

够小，确保各个群组之间有所区别

确定群组数量的方式 陡坡图

陡坡图可以展现群组内散度随群组数量增加而降低的过程。

陡坡图地拐弯处往往体现了最佳主成分数量

若所有成员都属于同一个群组，则群组内散度将达到最大值。随着群组数量增加，各个群组变得更紧凑，群组成员也变得更相似。

群组成员

群组成员是在迭代过程中确定的，通过检查群组成员与中心点的距离来确定群组有效性。

1 猜测每个群组中心点定为伪中心点

2 把每个数据点分配给最近的为中心点

3 根据分布调整伪中心点的位置

4 重复直到群组成员不再变化

局限性

每个数据点只能属于一个群组。数据点可能恰好位于两个群组中间。
群组被假定是正圆形的。位于椭圆两端的数据点可能会被划入临近的群组。
群组被假定是离散的

但k均值聚类具有简单朴素的优点，在实际中我们可以用k均值聚类大致了解数据，再用别的方法深入分析

主成分分析

有助于可视化 (利用最好的主成分)
有助于发现群组
降维方法之一

主成分

用于找去最能区别数据点的变量。

数据点会沿着主成分（数据点）的维度最大限度地分散开

在对当前地数据样本进行解释时，使用地主成分越少，泛化能力就越强。

当信息最丰富的及格维度拥有最大的散度且正交，主成分分析效果最佳

局限性

散度最大化 主成分分析有个重要假设，即数据点最分散地维度是最有用的。

解释成分 主成分分析必须对其产生的成分进行解释，但有时很难解释其原因。掌握相关领域的知识很有必要。

正交成分 主成分分析总是生成正交主成分，即成分之间存在正交关系。这个假设可能是不正确的，因为存在不存在正交关系的信息维度。在这个情况下可以考虑独立成分分析。

关联规则

支持度

支持度指某个项集出现的频率，也就是包含该项集的交易数与总交易数的比例。

支持度 = 交易数/总交易数

用于揭示某一个元素出现的频率，以及它与其他元素的关系。

置信度

置信度表示当X项出现时Y项同时出现的频率，记作{X→Y}。换言之，置信度指同时包含X项和Y项的交易数与包含X项的交易数之比。

置信度指标的缺点：错估某个关联规则的重要性

置信度(x→y) = 支持度(x,y)/支持度(x)

提升度

提升度指X项和Y项一同出现的频率，但同时要考虑这两项各自出现的频率。

如果提升都大于1，表示顾客购买两种商品的概率高

反之，低

提升度(x→y) = 支持度(x,y)/支持度(x) * 支持度(y)

先验原则

如果某个项集出现得不频繁，那么包含它的任何更大的项集必定出现得也不频繁。

利用先验原则，可以淘汰一大部分非频繁项集，从而大大地加快搜索频繁项集的速度。

寻找具有高支持度的项集

利用先验原则

1：列出只包含一个元素的项集，比如{苹果}和{梨}。

2：计算每个项集的支持度，保留那些满足最小支持度阈值条件的项集，淘汰不满足的项集。

3：向候选项集中增加一个元素，并利用在步骤2中保留下来的项集产生所有可能的组合。

4：重复步骤2和步骤3，为越来越大的项集确定支持度，直到没有待检查的新项集。图4-5描绘了利用先验原则对候选项集进行大幅精简的过程。如果{苹果}的支持度很低，那么它及其他所有包含它的候选项集都会被移除。这样一来，待检查项集的数量就减少了一大半。

局限性

计算成本高

假关联

以上都是在数据元素数量大是容易出现的局限性

社会网络分析

用以分析人际关系，社会网络分析还可以用来为其他实体构建网络，前提是这些实体之间彼此有联系。

社会网络分析可用于绘制和分析多个实体之间的关系。

力向导算法 不存在联系的节点彼此排斥，存在联系的节点则彼此吸引，吸引力的强弱取决于联系的紧密程度。

如贸易额大的国家之间连线较粗，且相距很近

在这里插入图片描述

Louvain方法

Louvain方法用于在一个网络中找出群组，具体做法是将群组内部的相互作用最大化，同时把群组之间的相互作用最小化。当群组大小相同且相互分离时，该方法的效果最佳。

如上图，通过对节点分组，可以找出网络中存在的群组。

louvain通过使用不同的聚类配置来做如下两件事：

把同一个群组中各个节点间的边数和强度最大化；
把属于不同群组的节点间的边数和强度最小化。

模块度用于表示上述两件事的完成程度。模块度越高，群组越理想。

方法：

把每个节点看作一个群组，即一开始群组数和节点数相同。
把一个节点重新分配给对提高模块度有最大帮助的群组；如果无法进一步提高模块度，节点保持不动；针对每个节点重复这个过程，直到不能再分配。
把步骤2中发现的每个群组作为一个节点，构建出一个粗粒度网络，并且把以前的群间边合并成连接新节点且带权重的边。
重复步骤2和步骤3，直到无法再重新分配和合并。

先发现小群组，然后在适当的情况下合并它们。

局限性

重要但较小的群组可能会被合并。
有多种可能的聚类配置。

PageRank算法

一开始是为网页排名的算法。这个算法有助于找出网络中占主导地位的节点，但对链接数不太多的新节点并不友好。

决定网页排名的因素：

链接数量：被其他网页链接的次数越多，该网页的访问者可能就越多。

链接强度：这些链接被访问的次数越多，该网页的流量就越大。

链接来源：如果被其他有较高排名的网页链接，那么该网页的排名也会升高。

在这里插入图片描述

超链接的权重越大，则其箭头所指方向的流量就越大。从图5-4可以看到，对于网页M的访问者而言，访问网页D的可能性是访问网页J的两倍，而访问网页T的可能性为零。

要了解哪个网页吸引的访问者最多，可以根据图5-4模拟100个访问者的上网行为，并观察他们最后停留在哪个网页上。首先，把100个访问者平均分配给4个网页，如图5-5所示。

在这里插入图片描述

经过重新分配之后，网页M大约有23(12.5+10)个访问者，其中10个来自于网页D,13个来自于网页J。图5-7显示了每个网页最终的访问者人数（舍入到最接近的整数）。

在这里插入图片描述

局限性

它偏向于旧节点，如果一个新网页包含非常棒的内容，但起始访问量少，那么他的pagerank排名就低

不过，这种偏向有时反倒有益，尤其是对那些有着长期影响力的实体进行排序时，更是如此。这表明，一个算法的局限性在某种情况下可能正是它的优点，这具体要看研究的问题是什么。

社会网络局限性

外交关系被忽略：虽然两个节点之间的边能体现进出口关系，从而在一定程度上反映两国之间的友好关系，但对于同为进口方或同为出口方的国家，这种方法不适用。

其他贸易因素被忽略：进出口贸易政策的制定涉及其他因素。除了加强双边关系外，各国可能还想通过贸易促进经济发展。因此，仅研究贸易数据可能得不到全面的结论。

能正是它的优点，这具体要看研究的问题是什么。

社会网络局限性

xxxTenc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
白话机器学习算法第2-5章读书笔记

K均值聚类聚类聚类是通过识别共同的喜好或特征，把顾客分组，其中k表示群组个数。定义群组有多少个群组？每个群组中有谁？群组数量群组数量越多，组内成员越相似，响铃群组之间的区别则越不明显所以在决定群组数量时必须有所权衡往大，便于提取有意义的模式够小，确保各个群组之间有所区别确定群组数量的方式陡坡图陡坡图可以展现群组内散度随群组数量增加而降低的过程。陡坡图地拐弯处往往体现了最佳主成分数量若所有成员都属于同一个群组，则群组内散度将达到最大值。随着群组数量增加，各个群组变得更紧凑，群组成
复制链接

扫一扫