集体智慧编程 读书笔记 三

    第三章 

    先是讲述聚类算法,第一步工作是构建数据集,书中给了现成数据集的下载地址, 还有feed list的下载地址, 给出了利用feed list 调用feedparser 处理成博客以及相应的单词的表格, 自己实现的时候没有必要这么来做, 一个是list里好多地址连不上, 都是国外的, 看懂代码即可, 我们可以直接把数据集下载下来, 书中给的地址已经改变所以新地址应该是:

数据集: http://segaran.com/clusters/blogdata.txt

feedlist   http://segaran.com/clusters/feedlist.txt


数据集的格式为:

Blog	china	kids	music	yahoo
Wonkette	0	2	1	0	6	2

第一列是博客名字, 第一行是列名, 然后剩下的是博客中出现单词的次数,分隔符是‘\t’


分级聚类

类似归并排序,一级一级来, 最后构成的结果从上往下看就是一棵树, 两两归并的原则是相似度或者紧密度, 这里书中用的是pearson算法, 比欧几里得要好一些,他能纠正类似 某一博客单词次数比另一博客都多但是趋势一直, 也就是对于某一直线的拟合度很小,其实相似度很高的情形。
第一步:先处理数据,
def readfile(filename='you
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值