白话机器学习算法 第2-5章 读书笔记

K均值聚类

聚类

聚类是通过识别共同的喜好或特征,把顾客分组,其中k表示群组个数。

定义群组

有多少个群组?

每个群组中有谁?

群组数量

群组数量越多,组内成员越相似,响铃群组之间的区别则越不明显

所以在决定群组数量时必须有所权衡

往大,便于提取有意义的模式

够小,确保各个群组之间有所区别

确定群组数量的方式 陡坡图

陡坡图可以展现群组内散度随群组数量增加而降低的过程。

陡坡图地拐弯处往往体现了最佳主成分数量

若所有成员都属于同一个群组,则群组内散度将达到最大值。随着群组数量增加,各个群组变得更紧凑,群组成员也变得更相似。

群组成员

群组成员是在迭代过程中确定的,通过检查群组成员与中心点的距离来确定群组有效性。

1 猜测每个群组中心点 定为伪中心点

2 把每个数据点分配给最近的为中心点

3 根据分布调整伪中心点的位置

4 重复 直到群组成员不再变化

局限性

  • 每个数据点只能属于一个群组。数据点可能恰好位于两个群组中间。
  • 群组被假定是正圆形的。位于椭圆两端的数据点可能会被划入临近的群组。
  • 群组被假定是离散的

但k均值聚类具有简单朴素的优点,在实际中 我们可以用k均值聚类大致了解数据,再用别的方法深入分析

主成分分析

  • 有助于可视化 (利用最好的主成分)
  • 有助于发现群组
  • 降维方法之一

主成分

用于找去最能区别数据点的变量。

数据点会沿着主成分(数据点)的维度最大限度地分散开

在对当前地数据样本进行解释时,使用地主成分越少,泛化能力就越强。

当信息最丰富的及格维度拥有最大的散度且正交,主成分分析效果最佳

局限性

散度最大化 主成分分析有个重要假设, 即数据点最分散地维度是最有用的。

解释成分 主成分分析必须对其产生的成分进行解释,但有时很难解释其原因。掌握相关领域的知识很有必要。

正交成分 主成分分析总是生成正交主成分,即成分之间存在正交关系。这个假设可能是不正确的,因为存在不存在正交关系的信息维度。 在这个情况下可以考虑独立成分分析。

关联规则

支持度

支持度指某个项集出现的频率,也就是包含该项集的交易数总交易数的比例。

​ 支持度 = 交易数/总交易数

用于揭示某一个元素出现的频率,以及它与其他元素的关系。

置信度

置信度表示当X项出现时Y项同时出现的频率,记作{X→Y}。换言之,置信度指同时包含X项和Y项的交易数与包含X项的交易数之比。

置信度指标的缺点: 错估某个关联规则的重要性

​ 置信度(x→y) = 支持度(x,y)/支持度(x)

提升度

提升度指X项和Y项一同出现的频率,但同时要考虑这两项各自出现的频率。

如果提升都大于1, 表示顾客购买两种商品的概率高

反之,低

​ 提升度(x→y) = 支持度(x,y)/支持度(x) * 支持度(y)

先验原则

如果某个项集出现得不频繁,那么包含它的任何更大的项集必定出现得也不频繁。

利用先验原则,可以淘汰一大部分非频繁项集,从而大大地加快搜索频繁项集的速度。

寻找具有高支持度的项集

利用先验原则

1:列出只包含一个元素的项集,比如{苹果}和{梨}。

2:计算每个项集的支持度,保留那些满足最小支持度阈值条件的项集,淘汰不满足的项集。

3:向候选项集中增加一个元素,并利用在步骤2中保留下来的项集产生所有可能的组合。

4:重复步骤2和步骤3,为越来越大的项集确定支持度,直到没有待检查的新项集。图4-5描绘了利用先验原则对候选项集进行大幅精简的过程。如果{苹果}的支持度很低,那么它及其他所有包含它的候选项集都会被移除。这样一来,待检查项集的数量就减少了一大半。

局限性

计算成本高

假关联

以上都是在数据元素数量大是容易出现的局限性

社会网络分析

用以分析人际关系,社会网络分析还可以用来为其他实体构建网络,前提是这些实体之间彼此有联系。

社会网络分析可用于绘制和分析多个实体之间的关系。

力向导算法 不存在联系的节点彼此排斥,存在联系的节点则彼此吸引,吸引力的强弱取决于联系的紧密程度。

如贸易额大的国家之间连线较粗,且相距很近

在这里插入图片描述

Louvain方法

Louvain方法用于在一个网络中找出群组,具体做法是将群组内部的相互作用最大化,同时把群组之间的相互作用最小化。当群组大小相同且相互分离时,该方法的效果最佳。

如上图,通过对节点分组,可以找出网络中存在的群组。

louvain通过使用不同的聚类配置来做如下两件事:

  1. 把同一个群组中各个节点间的边数和强度最大化;
  2. 把属于不同群组的节点间的边数和强度最小化。

模块度用于表示上述两件事的完成程度。模块度越高,群组越理想。

方法:

  1. 把每个节点看作一个群组,即一开始群组数和节点数相同。
  2. 把一个节点重新分配给对提高模块度有最大帮助的群组;如果无法进一步提高模块度,节点保持不动;针对每个节点重复这个过程,直到不能再分配。
  3. 把步骤2中发现的每个群组作为一个节点,构建出一个粗粒度网络,并且把以前的群间边合并成连接新节点且带权重的边。
  4. 重复步骤2和步骤3,直到无法再重新分配和合并。

先发现小群组,然后在适当的情况下合并它们。

局限性

  • 重要但较小的群组可能会被合并。
  • 有多种可能的聚类配置。

PageRank算法

一开始是为网页排名的算法。这个算法有助于找出网络中占主导地位的节点,但对链接数不太多的新节点并不友好。

决定网页排名的因素:

链接数量:被其他网页链接的次数越多,该网页的访问者可能就越多。

链接强度:这些链接被访问的次数越多,该网页的流量就越大。

链接来源:如果被其他有较高排名的网页链接,那么该网页的排名也会升高。

在这里插入图片描述

超链接的权重越大,则其箭头所指方向的流量就越大。从图5-4可以看到,对于网页M的访问者而言,访问网页D的可能性是访问网页J的两倍,而访问网页T的可能性为零。

要了解哪个网页吸引的访问者最多,可以根据图5-4模拟100个访问者的上网行为,并观察他们最后停留在哪个网页上。首先,把100个访问者平均分配给4个网页,如图5-5所示。

在这里插入图片描述

在这里插入图片描述

经过重新分配之后,网页M大约有23(12.5+10)个访问者,其中10个来自于网页D,13个来自于网页J。图5-7显示了每个网页最终的访问者人数(舍入到最接近的整数)。

在这里插入图片描述

局限性

它偏向于旧节点,如果一个新网页包含非常棒的内容,但起始访问量少,那么他的pagerank排名就低

不过,这种偏向有时反倒有益,尤其是对那些有着长期影响力的实体进行排序时,更是如此。这表明,一个算法的局限性在某种情况下可能正是它的优点,这具体要看研究的问题是什么。

社会网络局限性

外交关系被忽略:虽然两个节点之间的边能体现进出口关系,从而在一定程度上反映两国之间的友好关系,但对于同为进口方或同为出口方的国家,这种方法不适用。

其他贸易因素被忽略:进出口贸易政策的制定涉及其他因素。除了加强双边关系外,各国可能还想通过贸易促进经济发展。因此,仅研究贸易数据可能得不到全面的结论。

能正是它的优点,这具体要看研究的问题是什么。

社会网络局限性

外交关系被忽略:虽然两个节点之间的边能体现进出口关系,从而在一定程度上反映两国之间的友好关系,但对于同为进口方或同为出口方的国家,这种方法不适用。

其他贸易因素被忽略:进出口贸易政策的制定涉及其他因素。除了加强双边关系外,各国可能还想通过贸易促进经济发展。因此,仅研究贸易数据可能得不到全面的结论。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值