树状图在层次聚类的运用
这就是树状图,在层次聚类中非常有用。现在有一个问题,标准有很多,例如,0.25、0.8、1.8,到底怎么选最优的标准决定分组的个数?
如图41-18所示,作为一个算法有自己的最佳实践,一般情况下,不会选与水平线的轴接触的图形为分界线。这里以高于红色线上面的部分进行划分,一般情况下肯定是这样,为什么?第一点,因为最原始的水平轴是一个元素就一组,正常情况下一个元素不可能是一组,除非这个元素是一个超级元素,1个元素自成1派或自成1组,一般情况下不会出现这样的特例。第二点,继续往上看,不是与水平轴接触的图形中,如果上面只有1个连接,就分成2组,p1,p2,p3分1组,p4,p5,p6分1组。
图41- 18分界线的划分
如图41-19所示,按照最大距离(Largest distance)就分成了2组。
图41- 19 按最大距离划分
如图41-20所示,看右边的图应该分成几组?为什么?我们可以发现规律,分成几组考虑的一个因素是最大的距离。距离比较大就进行分组,这个很容易理解。计算机比较h4,h3的距离,然后进行排序,发现h3更大,就把它进行分组。
图41- 20 如何分组
如图41-21所示,这里分成3组。这很容易理解很直观。
图41- 21分成3组
这是本节讲解的一个非常实用的层次聚类,层次聚类有两种方式,一种是凝聚聚类,另一种是分裂聚类,分裂聚类的方式大家可以自学。
庆祝段智华的博客访问量突破100万+,欢迎阅读
https://duanzhihua.blog.csdn.net/
本文根据王家林老师《30个真实商业案例代码中成为AI实战专家(10大机器学习案例、13大深度学习案例、7大增强学习案例)课程》整理