data mining
文章平均质量分 80
mahout_xb
这个作者很懒,什么都没留下…
展开
-
社交网络数据挖掘
计划从今天开始翻译Matthew A.Russell的新书《Mining the Social Web》,副标题是《Analyzing Data from Facebook, Twitter, LinkedIn, andOther Social Media Sites》,目的一是个人对数据挖掘方面的兴趣,另外也是从实践中提高英文阅读能力,一切相关版权都归原作者, 这一系列的文章均不涉及任何的商业利翻译 2012-02-27 18:26:18 · 1034 阅读 · 0 评论 -
前言
网络是社会创造的而不是技术创造的。我设计她是为了社会效益--使得大家能协同工作,而不是作为一个技术玩具。网络的终极目标是支持和改善我们在世界上象网络一样的存在。我门使家庭,社团,公司各自更紧密的联系在一起。我们使得千里之外的人互信互利,同时消除躲在人们心中黑暗角落的猜疑。--Tim Berners-Lee 谁适合读这本书?如果你有基本的编程背景,并且对挖掘和分析社交网络数据感兴趣,翻译 2012-02-28 08:27:29 · 554 阅读 · 0 评论 -
第一章, 介绍:挖掘twitter的数据
虽然我们可以从讨论社交网络的APIs, schemaless的设计,或者许多其它的事开始, 但是让我们直接进入一些介绍性的例子,以此来说明去收集和分析社交网站的数据。这是一篇入门章节,目的是激发你的兴趣,让你思索一些问题,而余下的章节会涉及到细节。我们将先将开发环境搭建个,然后马上开始收集个分析一些twitter的数据。安装Python开发环境这本书的示例以用pytho翻译 2012-03-11 11:36:53 · 5875 阅读 · 4 评论 -
第二章, 微格式:语义标注和常义冲突
随着“网络”一词的不断革新,微格式(microformat)是前进中重要的一步,因为它提供了一种机制能嵌入“聪明的数据”到网页中,并且易于内容提供者来实现。简单的说,微格式是规定了如何增加结构化数据到网页中,且不用修改原网页。这一节将主要介绍微格式,并且深入一些实例将用到XFN(XHTML Friends Network),geo, hRecipe 以及 hReview等微格式。特别的,我们将从博翻译 2012-03-26 11:15:48 · 2938 阅读 · 0 评论 -
第三章, 邮箱:老当益壮
这一章介绍一些具体的工具和技术来分析邮件--Internet上一类典型的数据,尽管社交网络的好处还需要几年才能显现--来如下的问题:谁发送的邮件最多存在一个在一天中的特定时间(或一周中的某一天)发送者最可能得到对问题的回复吗?两个人之间谁发的信息最多?线上讨论都涉及哪些话题?虽然社交媒体网络赢得了上P级的近乎实时的社交数据,但这里仍存在重大的缺点,不像邮件,社交网络数据是由服务翻译 2012-04-06 13:30:52 · 2091 阅读 · 0 评论