programming collective intelligence读书笔记二

第三章讲的是如何给社区里面的blog分组...

hierarchical clustering(word clustering)
统计博客中的文章,按照词语词出现的频率作为博客间的距离,把博客分组,形成树状图
算法是,查找所有博客,距离近的作为一组,然后反复迭代构成树
这个树有不同的生长策略的...书里介绍的是最简单的那种:不停的把最近的组合并构成树...

column clustering(blog clustering)
上面是以blog为维度,也可以用word为维度,查看经常同时出现的word...
算法上是一样的,只不过把数据矩阵转制了一下
这样统计出来的是经常在一起出现的词语,按照词语来划分组...

k-means clustering
这个目的是把blog分成k个组,算法是:
二维图上有n个点,先随机放k个中心点
然后n个点找最近的中心点,这样分成了k组
这时候再把中心点移动到每组的正中心作为一轮,然后再迭代分组,一直到中心点不移动为止...

multidimensional scaling
这个讲的是如何在二维图上表示n个blog
其实就是牛顿迭代...先把点放上去,然后参考他们之间的距离,移动一点点
反复迭代,直到收敛不动为止...


--------------
chenjinlai
2008-05-06
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值