《WTF: The Who to Follow Service at Twitter》文中介绍的是一个初始版本。第一次提供用户推荐,要求是质量可以,但是上线要快。
因此他们搞了一个单机版本。内存很大,144G ram,至今没有用过这么大内存的机器。
数据规模:照例讲了一个长尾分布,少数人有1000万follower,25个人有100万的follower。
介绍了一下 用不用hadoop的理由。扯了一下 pagerank,为什么要讲这个东西?
开源的graph model 计算工具Cassovary。
grahp 分为两类:social graph & interest graph。 social graph, 腾讯微博更多的是一个social graph,而新浪微博是一个 interest graph。至少我是这么用的。qq微博上全是同学朋友。而新浪微博已经是一个学习圈内知识的工具。
算法:Circle Of Trust
http://t.cn/zH8626t Circle Of Trust – The Best Tool To Organize Your Relationship On Google+ Infographic 这个Circle 很明显可以再分几个层次。