K均值聚类
聚类
聚类是通过识别共同的喜好或特征,把顾客分组,其中k表示群组个数。
定义群组
有多少个群组?
每个群组中有谁?
群组数量
群组数量越多,组内成员越相似,响铃群组之间的区别则越不明显
所以在决定群组数量时必须有所权衡
往大,便于提取有意义的模式
够小,确保各个群组之间有所区别
确定群组数量的方式 陡坡图
陡坡图可以展现群组内散度随群组数量增加而降低的过程。
陡坡图地拐弯处往往体现了最佳主成分数量
若所有成员都属于同一个群组,则群组内散度将达到最大值。随着群组数量增加,各个群组变得更紧凑,群组成员也变得更相似。
群组成员
群组成员是在迭代过程中确定的,通过检查群组成员与中心点的距离来确定群组有效性。
1 猜测每个群组中心点 定为伪中心点
2 把每个数据点分配给最近的为中心点
3 根据分布调整伪中心点的位置
4 重复 直到群组成员不再变化
局限性
- 每个数据点只能属于一个群组。数据点可能恰好位于两个群组中间。
- 群组被假定是正圆形的。位于椭圆两端的数据点可能会被划入临近的群组。
- 群组被假定是离散的
但k均值聚类具有简单朴素的优点,在实际中 我们可以用k均值聚类大致了解数据,再用别的方法深入分析
主成分分析
- 有助于可视化 (利用最好的主成分)
- 有助于发现群组
- 降维方法之一
主成分
用于找去最能区别数据点的变量。
数据点会沿着主成分(数据点)的维度最大限度地分散开
在对当前地数据样本进行解释时,使用地主成分越少,泛化能力就越强。
当信息最丰富的及格维度拥有最大的散度且正交,主成分分析效果最佳
局限性
散度最大化 主成分分析有个重要假设, 即数据点最分散地维度是最有用的。
解释成分 主成分分析必须对其产生的成分进行解释,但有时很难解释其原因。掌握相关领域的知识很有必要。
正交成分 主成分分析总是生成正交主成分,即成分之间存在正交关系。这个假设可能是不正确的,因为存在不存在正交关系的信息维度。 在这个情况下可以考虑独立成分分析。
关联规则
支持度
支持度指某个项集出现的频率,也就是包含该项集的交易数与总交易数的比例。
支持度 = 交易数/总交易数
用于揭示某一个元素出现的频率,以及它与其他元素的关系。
置信度
置信度表示当X项出现时Y项同时出现的频率,记作{X→Y}。换言之,置信度指同时包含X项和Y项的交易数与包含X项的交易数之比。
置信度指标的缺点: 错估某个关联规则的重要性
置信度(x→y) = 支持度(x,y)/支持度(x)
提升度
提升度指X项和Y项一同出现的频率,但同时要考虑这两项各自出现的频率。
如果提升都大于1, 表示顾客购买两种商品的概率高
反之,低
提升度(x→y) = 支持度(x,y)/支持度(x) * 支持度(y)
先验原则
如果某个项集出现得不频繁,那么包含它的任何更大的项集必定出现得也不频繁。
利用先验原则,可以淘汰一大部分非频繁项集,从而大大地加快搜索频繁项集的速度。
寻找具有高支持度的项集
利用先验原则
1:列出只包含一个元素的项集,比如{苹果}和{梨}。
2:计算每个项集的支持度,保留那些满足最小支持度阈值条件的项集,淘汰不满足的项集。
3:向候选项集中增加一个元素,并利用在步骤2中保留下来的项集产生所有可能的组合。
4:重复步骤2和步骤3,为越来越大的项集确定支持度,直到没有待检查的新项集。图4-5描绘了利用先验原则对候选项集进行大幅精简的过程。如果{苹果}的支持度很低,那么它及其他所有包含它的候选项集都会被移除。这样一来,待检查项集的数量就减少了一大半。
局限性
计算成本高
假关联
以上都是在数据元素数量大是容易出现的局限性
社会网络分析
用以分析人际关系,社会网络分析还可以用来为其他实体构建网络,前提是这些实体之间彼此有联系。
社会网络分析可用于绘制和分析多个实体之间的关系。
力向导算法 不存在联系的节点彼此排斥,存在联系的节点则彼此吸引,吸引力的强弱取决于联系的紧密程度。
如贸易额大的国家之间连线较粗,且相距很近
Louvain方法
Louvain方法用于在一个网络中找出群组,具体做法是将群组内部的相互作用最大化,同时把群组之间的相互作用最小化。当群组大小相同且相互分离时,该方法的效果最佳。
如上图,通过对节点分组,可以找出网络中存在的群组。
louvain通过使用不同的聚类配置来做如下两件事:
- 把同一个群组中各个节点间的边数和强度最大化;
- 把属于不同群组的节点间的边数和强度最小化。
模块度用于表示上述两件事的完成程度。模块度越高,群组越理想。
方法:
- 把每个节点看作一个群组,即一开始群组数和节点数相同。
- 把一个节点重新分配给对提高模块度有最大帮助的群组;如果无法进一步提高模块度,节点保持不动;针对每个节点重复这个过程,直到不能再分配。
- 把步骤2中发现的每个群组作为一个节点,构建出一个粗粒度网络,并且把以前的群间边合并成连接新节点且带权重的边。
- 重复步骤2和步骤3,直到无法再重新分配和合并。
先发现小群组,然后在适当的情况下合并它们。
局限性
- 重要但较小的群组可能会被合并。
- 有多种可能的聚类配置。
PageRank算法
一开始是为网页排名的算法。这个算法有助于找出网络中占主导地位的节点,但对链接数不太多的新节点并不友好。
决定网页排名的因素:
链接数量:被其他网页链接的次数越多,该网页的访问者可能就越多。
链接强度:这些链接被访问的次数越多,该网页的流量就越大。
链接来源:如果被其他有较高排名的网页链接,那么该网页的排名也会升高。
超链接的权重越大,则其箭头所指方向的流量就越大。从图5-4可以看到,对于网页M的访问者而言,访问网页D的可能性是访问网页J的两倍,而访问网页T的可能性为零。
要了解哪个网页吸引的访问者最多,可以根据图5-4模拟100个访问者的上网行为,并观察他们最后停留在哪个网页上。首先,把100个访问者平均分配给4个网页,如图5-5所示。
经过重新分配之后,网页M大约有23(12.5+10)个访问者,其中10个来自于网页D,13个来自于网页J。图5-7显示了每个网页最终的访问者人数(舍入到最接近的整数)。
局限性
它偏向于旧节点,如果一个新网页包含非常棒的内容,但起始访问量少,那么他的pagerank排名就低
不过,这种偏向有时反倒有益,尤其是对那些有着长期影响力的实体进行排序时,更是如此。这表明,一个算法的局限性在某种情况下可能正是它的优点,这具体要看研究的问题是什么。
社会网络局限性
外交关系被忽略:虽然两个节点之间的边能体现进出口关系,从而在一定程度上反映两国之间的友好关系,但对于同为进口方或同为出口方的国家,这种方法不适用。
其他贸易因素被忽略:进出口贸易政策的制定涉及其他因素。除了加强双边关系外,各国可能还想通过贸易促进经济发展。因此,仅研究贸易数据可能得不到全面的结论。
能正是它的优点,这具体要看研究的问题是什么。
社会网络局限性
外交关系被忽略:虽然两个节点之间的边能体现进出口关系,从而在一定程度上反映两国之间的友好关系,但对于同为进口方或同为出口方的国家,这种方法不适用。
其他贸易因素被忽略:进出口贸易政策的制定涉及其他因素。除了加强双边关系外,各国可能还想通过贸易促进经济发展。因此,仅研究贸易数据可能得不到全面的结论。