第三章
先是讲述聚类算法,第一步工作是构建数据集,书中给了现成数据集的下载地址, 还有feed list的下载地址, 给出了利用feed list 调用feedparser 处理成博客以及相应的单词的表格, 自己实现的时候没有必要这么来做, 一个是list里好多地址连不上, 都是国外的, 看懂代码即可, 我们可以直接把数据集下载下来, 书中给的地址已经改变所以新地址应该是:
数据集: http://segaran.com/clusters/blogdata.txt
feedlist http://segaran.com/clusters/feedlist.txt
数据集的格式为:
Blog china kids music yahoo
Wonkette 0 2 1 0 6 2
第一列是博客名字, 第一行是列名, 然后剩下的是博客中出现单词的次数,分隔符是‘\t’
分级聚类
类似归并排序,一级一级来, 最后构成的结果从上往下看就是一棵树, 两两归并的原则是相似度或者紧密度, 这里书中用的是pearson算法, 比欧几里得要好一些,他能纠正类似 某一博客单词次数比另一博客都多但是趋势一直, 也就是对于某一直线的拟合度很小,其实相似度很高的情形。
第一步:先处理数据,
def readfile(filename='you