第一章，介绍：挖掘twitter的数据

最新推荐文章于 2023-03-29 16:16:41 发布

mahout_xb

最新推荐文章于 2023-03-29 16:16:41 发布

阅读量5.9k

点赞数

分类专栏： data mining 文章标签： twitter graphviz python dependencies search import

data mining 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

虽然我们可以从讨论社交网络的APIs, schemaless的设计，或者许多其它的事开始，但是让我们直接进入一些介绍性的例子，以此来说明去收集和分析社交网站的数据。这是一篇入门章节，目的是激发你的兴趣，让你思索一些问题，而余下的章节会涉及到细节。我们将先将开发环境搭建个，然后马上开始收集个分析一些twitter的数据。

安装Python开发环境

这本书的示例以用python语言来写的，如果你已经安装了新版本的python和easy_install在你的系统上，那你可以跳过本节。如果你没有安装python,坏消息是你可能不是一个python hacker。但是不用担心，你很快就是了，因为python很容易上手。用户在任何的平台都能去下载和安装python在：http://www.python.org/download/,但是强烈建议windows用户安装ActivePython,它自动将python加入到你的系统路径下并且已经带有easy_install。本书的代码在python2.7上测试的。

一旦安装好了python, 你就可以在命令行敲下python, 启动其交互模式。尝试以下示例1－1

示例1－1，第一个python交互会话

>>> print "Hello World"
Hello World
>>> #this is a comment
...
>>> for i in range(0,10): # a loop
...     print i, # the comma suppresses line breaks
...
0 1 2 3 4 5 6 7 8 9
>>> numbers = [ i for i in range(0,10) ] # a list comprehension
>>> print numbers
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>> if 10 in numbers: # conditional logic
...     print True
... else:
...     print False
...
False

另外一个工具easy_install,类似linux上的安装包管理工具，它能让你很方便安装python的库，而不用去下载，编译，再安装。你可以下载最新的版本在http://pypi.python.org/pypi/setuptools, 针对不同的平台有相关的介绍。一般来说，*nix用户可能要用sudo easy_install在安装，使很系统中所有用户都能用到安装的库，而windows用户，如果按照建议安装了ActivePython，只需要用easy_install命令就好了。

你配置好了easy_install后，就可以用它来安装NetworkX了--用来构建和分析图的工具，整本书都会用到它。安装时能看到类似的输出：

$ easy_install networkx
Searching for networkx
...truncated output...
Finished processing dependencies for networkx

有了NetworkX后，你可能用在解析器下直接引入它，但有可能会出错：

>>> import networkx
Traceback (most recent call last):
... truncated output ...
ImportError: No module named numpy

当出现ImportError时，意味着缺少相应的库。networkx信赖于numpy, 一个高度优化的科学计算库，执行easy_install numpy解决此问题。安装完numpy后，你应该可以运行示例１-２:

示例1－2,　用networkx来创建一个图的点和边

>>> import networkx
>>> g=networkx.Graph()
>>> g.add_edge(1,2)
>>> g.add_node("spam")
>>> print g.nodes()
[1, 2, 'spam']
>>> print g.edges()
[(1, 2)]

现在，你已经安装了一些核心的python开发工具了，准备好去做一些有趣的任务了。如果你觉得这一节有多要学的，那么很有必要去看看官网的python介绍，在进入下一节之前。

收集和运用twitter的数据

几乎不可能你不知道twitter, 它是一个社会化的微博服务，你可能输入140个字符以下的信息，这些信息被称作tweets。不像社交网络如Facebook和LinkedIn, 在那里连接是双向的，twitter有一个不对称的基础框架，叫做“朋友”和“粉丝”。假设你有一个twitter账号，你的朋友是你正关注的人，而你的粉丝是那些关注你的人。当然，你可以去关注所有那些关注你的人，然而，这一般是不会发生的，因为你仅仅想让你的Home Timeline中包含你感兴趣的内容。twitter作为一个重要的现象，因为它庞大的用户数量，以及作为市场动向分析工具，和大量的第三方客户端。它提供了广泛的APIs,虽然你可以用其中的很多，而不用注册，但是它会更有趣去建立和挖掘你自己的社交网络。发点时间去看看twitter的服务条款，API文档，以及API的约束条件。这本书余下的部分假设你有一个twitter的账号，并且有足够多的朋友和粉丝来作为数据去挖掘。

注：这本书的twitter账号是＠SocialWebMining

运用twitter的API

twitter的一小部分网络API包装在一个名为twitter的包中，可以通过easy_install来安装：

$ easy_install twitter
Searching for twitter
...truncated output...
Finished processing dependencies for twitter

这个包还包含一个方便的命令行工具以及网络聊天机器人，因此当你安装了这个模块后，你就可以在shell中敲入“twitter"来得到使用帮助。然而，我们将主要关注python的交互解释器。我们将操作几个实例，但是请注意，你可以跳过文档，因为可以用pydoc再次查看这些文档。＊nix用户可以简单的敲入pydoc twitter.Twitter来查看Twitter类的文档，而widows用户需要用python -mpydoc twitter.Twitter.如果你发现你经常查看某个模块的文档，你可以选择传递一个-w选项给pydoc,这样就可以输出为HTML文件来保存或由浏览器收藏为书签。当然，也可以在解释器中键入help来完成同样的功能，如help(twitter.Twitter).

该进入主题了，我们来找出人们正在谈论什么，利用twitter的搜索api来观察趋势。让我们先准备好解释器，初始化一个搜索。尝试示例1－3，如果有疑问，用help()来查看相关文档。

示例1－3，检索twitter的搜索趋势

>>> import twitter
>>> twitter_search = twitter.Twitter(domain="search.twitter.com")
>>> trends = twitter_search.trends()
>>> [ trend['name'] for trend in trends['trends'] ]
[u'#ZodiacFacts', u'#nowplaying', u'#ItsOverWhen', u'#Christoferdrew',
u'Justin Bieber', u'#WhatwouldItBeLike', u'#Sagittarius', u'SNL', u'#SurveySays',
u'#iDoit2']

你可能在想，使用twitter的api非常之简单：初始化Twitter类用一个URL，然后调用这个对象上的方法。例如，twitter_search.trends()初始化了一个HTTP请求去得到 http://search.twitter.com/trends.json,你也可以键入这个url到浏览器中得到同样的结果。作为前面解释器章节的进一步，这一节完稿在周六的晚上，因此，SNL（周六夜场秀，一美国娱乐节目）出现在趋势列表中不是巧合。现在可能是一个很好的时机去看看twitter的api文档，后面会多次用到。

得出SNL是一个趋势，下面就是去获取一些关于它的搜索结果，用twitter的搜索api来探索包含SNL的tweets,然后以json的格式将它们打印出来，如示例1－4描述的：

示例1－4，分页显示twitter的搜索结果

>>> search_results = []
>>> for page in range(1,6):
...     search_results.append(twitter_search.search(q="SNL", rpp=100, page=page))

以上代码获取和存储结果为5个连续的片断（页），每页100条记录。它是很有意义的去看一个相应的REST查询 http://search.twitter.com/
search.json?&q=SNL&rpp=100&page=1。在REST API和twitter模块之间的映射使得我们很容易用python代码来和twitter服务交互。在执行完这个搜索后，search_results包含了5个对象，每个有100条结果记录，你能够将这些结果用易读的形式打印出来，用python 2.6以后自带的json模块，如示例1－5：

示例1－5，易读的twitter数据以json格式

>>> import json
>>> print json.dumps(search_results, sort_keys=True, indent=1)
[
  {
    "completed_in": 0.088122000000000006,
    "max_id": 11966285265,
    "next_page": "?page=2&max_id=11966285265&rpp=100&q=SNL",
    "page": 1,
    "query": "SNL",
    "refresh_url": "?since_id=11966285265&q=SNL",
    "results": [
     {
       "created_at": "Sun, 11 Apr 2010 01:34:52 +0000",
       "from_user": "bieber_luv2",
       "from_user_id": 106998169,
       "geo": null,
       "id": 11966285265,
       "iso_language_code": "en",
       "metadata": {
        "result_type": "recent"
       },
       "profile_image_url": "http://a1.twimg.com/profile_images/809471978/DSC00522...",
       "source": "<a href="http://twitter.com/">web</a>",
       "text": " ...truncated... im nt gonna go to sleep happy unless i see @justin...",
       "to_user_id": null
     }
               ... output truncated - 99 more tweets ...
    ],
    "results_per_page": 100,
    "since_id": 0
  },
       ... output truncated - 4 more pages ...
]

注意，据2010年下半年的通知，在搜索结果中from_user_id字段不对应真实的twitter用户id,查看Twitter API Issue #214得到更多细节，这个缺点到本书的章节没有任何影响，但是如果你要自己创建一些应用就要注意这点了（值得特别关注）

到本书的后面才会仔细推敲这些结果中的细节（请看第5章），这时候要注意的是返回的结果以results作为关键字，我们能提取这500个tweets的文本到列表中，用下面的方法。示例1－6
用一个双列表推导式，缩进以表明它与嵌套循环没什么区别。

示例1－6，一个简单的python列表推导式

>>> tweets = [ r['text'] \
...     for result in search_results \
...         for r in result['results'] ]

列表推导式被经常用到在这本书中，虽然它们很容易产生迷惑如果写在一行，但是将它们以嵌套循环打印出来意思就明了了。这个结果tweets相当于定义一个空的列表tweets,然后调用tweets.append(r['text'])在嵌套循环中。参见“Data Structures"一节在python的官网教程中。列表推导是非常有用的，它们有时候能提供更高的效率比嵌套循环，且更简洁。

频率分析和词汇多样性

对于非结构化文本一个最直接的度量就是词汇丰富性（lexical diversity),即不重复的单词数除以总的单词数目。如示例1－7

示例1－7， tweets的词汇丰富性

>>> words = []
>>> for t in tweets:
...     words += [ w for w in t.split() ]
...
>>> len(words) # total words
7238
>>> len(set(words)) # unique words
1636
>>> 1.0*len(set(words))/len(words) # lexical diversity
0.22602928985907708
>>> 1.0*sum([ len(t.split()) for t in tweets ])/len(tweets) # avg words per tweet
14.476000000000001

词汇丰富性值0.23表明四个单词中约有一个是唯一的。已知每条tweet的单词数量是14, 也就是说仅有3个单词是唯一的在每条tweet中，不考虑其他因素，也就是说每条tweet载有20％的唯一信息。对于这点，有趣的是tweets中有多少噪音是由于五毛党所造成，有哪些常用单词，又有哪些不常用的单词。单词和它们的频率分布就能解决此问题。虽然这不难解决，我们还是安装一个工具，它提供了内置的频率分布以及其它一些文本分析工具。

自然语言工具集（NLTK）是一个非常受欢迎的模块，这本书中我们将经常用到。它包含大量的文本分析工具，如一般向量计算，信息提取，自然语言处理（NLP）等，虽然说它在商业上和学术上不是最先进的，但它提供了坚实的和广泛的基础，如果这是你第一次来尝试做自然语言处理的话。如果你的项目对质量或效率要求很高的话，NLTK不能满足你的需求，这种情况有三个选择,取决于你能花在这上面的时间和金钱: 1.从开源项目中找替代品，做大量的实验和测试来对比它们的性能 2.白手起家自己制造工具集 3.买一个商业的产品。其中任何一种都不便宜（如果你相信时间就是金钱）或容易。

NLTK能通过easy_install来安装，但你需要重启解释器才能用它。你能够用cPickle模块来保存你的工作会话在重启前。如示例1－8

示例1－8，保存数据

>>> f = open("myData.pickle", "wb")
>>> import cPickle
>>> cPickle.dump(words, f)
>>> f.close()
>>>
$ easy_install nltk
Searching for nltk
...truncated output...
Finished processing dependencies for nltk

在安装了NLTK后，你可能想要看一看它的官网，那里有它的文档，也包含Natural Language Processing with Python(O'Reilly)整部书的电子版。

人们正在谈论什么？

尝试去回答人们正在谈论什么是挖掘twitter数据最引人入胜的理由。一个最简单的技术用来解决这个问题的就是频率分析。NLTK简化了这个问题，它提供了文本分析的API,因此让我们减轻工作量，让NLTK来处理细节吧。示例1－9演示了这个查找过程，通过创建频率分布，找出50个最常用的和最不常用的词。

示例1－9，用NLTK来执行最基本的频率分析

>>> import nltk
>>> import cPickle
>>> words = cPickle.load(open("myData.pickle"))
>>> freq_dist = nltk.FreqDist(words)
>>> freq_dist.keys()[:50] # 50 most frequent tokens
[u'snl', u'on', u'rt', u'is', u'to', u'i', u'watch', u'justin', u'@justinbieber',
u'be', u'the', u'tonight', u'gonna', u'at', u'in', u'bieber', u'and', u'you',
u'watching', u'tina', u'for', u'a', u'wait', u'fey', u'of', u'@justinbieber:',
u'if', u'with', u'so', u"can't", u'who', u'great', u'it', u'going',
u'im', u':)', u'snl...', u'2nite...', u'are', u'cant', u'dress', u'rehearsal',
u'see', u'that', u'what', u'but', u'tonight!', u':d', u'2', u'will']
>>> freq_dist.keys()[-50:] # 50 least frequent tokens
[u'what?!', u'whens', u'where', u'while', u'white', u'whoever', u'whoooo!!!!',
u'whose', u'wiating', u'wii', u'wiig', u'win...', u'wink.', u'wknd.', u'wohh', u'won',
 u'wonder', u'wondering', u'wootwoot!', u'worked', u'worth', u'xo.', u'xx', u'ya',
u'ya<3miranda', u'yay', u'yay!', u'ya\u2665', u'yea', u'yea.', u'yeaa', u'yeah!',
u'yeah.', u'yeahhh.', u'yes,', u'yes;)', u'yess', u'yess,', u'you!!!!!',
u"you'll", u'you+snl=', u'you,', u'youll', u'youtube??', u'youu<3',
u'youuuuu', u'yum', u'yumyum', u'~', u'\xac\xac']

快速的扫一下示例1－9的结果，你会发现最常用的词比最不常用的词载有更多有用的信息。虽然进一步的工作是让机器来识别，但常用词涉及的实体如人，时间，事件，而不常用的词则大都是噪音其中得不出任何有用信息。

第一点你发现的关于常用词的可能就是SNL排在了第一位，既已知这是基于原始的搜索结果，这就不足为奇了。有趣之处上往后面的词看：有很多谈论是关于Justin Bieber，有以下词为证，@justinbieber, justin, 和 bieber。任何人熟悉SNL的也应该知道“tina”和“fey"的出现决非巧合，鉴于Tina Fey和该节目的长期合作关系。也不难从这些词中推断出Justin Bieber是个有名的人，由于他要上周六晚上的节目，所以许多人非常激动的去搜索他。

这时候，你可能会想， “这样啊，那我可以浏览一些tweets,来推断出结论“，也许的确可以这样，但你想7＊24小时来做这件事吧，或是雇佣别人来做。那么如果是在其他领域，仅靠浏览随机的几条文本是得不出可靠的结论呢？要点是频率分析是非常容易，也很有用的工具，它是如此显而易见而不应被忽略。另外，这种技术一个基本的作用就是能让你回答这个问题，"人们正在谈论什么？”

作为最后观察到的一点，“rt"的出现对于话题的继续是很重要的线索。词“RT”是一个特殊的符号，出现在一条tweet之前代表你正转发某人的tweet.从这个词的高频率，可以推断有大量重复的或是相近的tweet.事实上，这个观察是我们下面分析的基础。

从tweets中抽取关系

因为社交网络是第一个也是最重要的一个关于人们之的联系，一个方便的存储社交网络数据的形式就是图。让我们用NetworkX来构建一个转发tweet的人们的关系图。我们将在图中直接表明信息的流向，更准确的来说，它是双向图。虽然twitter的API有一些能力去判别和分析转发的状态，但对于下面的例子不太适合，因为我们要向服务器作大量的请求，这将是对有限额的API请求的浪费。

除此之外，我们能通过tweet本身的线索以正则表达式来抽取这些信息。按规定，twitter的人名符号以@符号开头，仅能包含字母，数字和下划线。因此，按转发的规定，我们只需要探索下而的样式：

RT 后接用户名
via 后接用户名

虽然第5章介绍来一个模块来解析tweets中的实体，示例1－10表明你可以用re模块来编译一个样式，以轻量级的方式来抽取tweet的发起人，而不用其它的库。

示例1－10，用正则表达式来找到转发者

>>> import re
>>> rt_patterns = re.compile(r"(RT|via)((?:\b\W*@\w+)+)", re.IGNORECASE)
>>> example_tweets = ["RT @SocialWebMining Justin Bieber is on SNL 2nite. w00t?!?",
...     "Justin Bieber is on SNL 2nite. w00t?!? (via @SocialWebMining)"]
>>> for t in example_tweets:
...     rt_patterns.findall(t)
...
[('RT', ' @SocialWebMining')]
[('via', ' @SocialWebMining')]

以防不太明显，调用findall返回一个元组列表，每一个元组包含一个匹配的字符串或是空字符串，注意这个正则表达式留一个空格在开头，可以很容易的用strip()来解决，如示例1－11。因为示例的tweets中没有一个包含这两种样式，因此，在每一个元组中包含一个空字符串。

已知，这些由twitter API返回的tweet数据结构中包含发tweet的人，以及上面所示获取转发人的方法，很容易将这些信息载入到NetworkX的图中。让我们创建一个图，结点代表用户，两个结点间的有向边代表一个用户转发的另一个用户的tweet,边本身包含tweet的id和tweet的文本。

示例1－11演示了图创建的过程，基本步骤是，首先概括出一个方法来抽取转发中的用户名，再将每一页的tweets数据放入一个列表中，最后，循环扫描每页的tweets并将边加入图中。虽然我们在后面能将图画出来，但即使不可视化它，我们也很从图的特性中得到很多东西。

示例1－11，建立和分析一个图表明了谁转发了谁的tweet

>>> import networkx as nx
>>> import re
>>> g = nx.DiGraph()
>>>
>>> all_tweets = [ tweet
...                for page in search_results
...                     for tweet in page["results"] ]
>>>
>>> def get_rt_sources(tweet):
...     rt_patterns = re.compile(r"(RT|via)((?:\b\W*@\w+)+)", re.IGNORECASE)
...     return [ source.strip()
...              for tuple in rt_patterns.findall(tweet)
...                  for source in tuple
...                       if source not in ("RT", "via") ]
...
>>> for tweet in all_tweets:
...     rt_sources = get_rt_sources(tweet["text"])
...     if not rt_sources: continue
...     for rt_source in rt_sources:
...         g.add_edge(rt_source, tweet["from_user"], {"tweet_id" : tweet["id"]})
...
>>> g.number_of_nodes()
160
>>> g.number_of_edges()
125
>>> g.edges(data=True)[0]
(u'@ericastolte', u'bonitasworld', {'tweet_id': 11965974697L})
>>> len(nx.connected_components(g.to_undirected()))
37
>>> sorted(nx.degree(g))
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 6, 6, 9, 37]

图1－1，分布图表明了图中结点的度数，揭露了图的联系

NetworkX内置了非常有用的功能去开始分析twitter数据，但有一点很重要，我们要记住这里分析的数据只很少的一部分关于SNL －－成千上万中的500个tweets。从这个图中我们知道，有160个人转发过，但只有125条边，160／125（约1.28）是一个很重要的线索，告诉我们点的平均度数接近1，意味着虽然一些结点与另外多个结点有联系，但平均是约一个联系一个结点。

调用connected_components显示图中包含了37个子图，且不是完全连通的，输出的度数可能起初看起来有点神秘，但是它实实在在的证明了我们获得的一点：它能告诉我们图的联系性怎么样，而不必去渲染出这个图。在这个示例中，大部分的值是1，意味着大部分结点为的度数是1，即仅与另外一个结点为连接。一些值是在2到9之间，意味着与其他2到9个结点连接。特例是那个度数为37的结点。图中有没有任何连接的结点，也有一个度数为37的结点。图1－1以直方图来表明度数的分布。这条趋势线表明它近似幂律分布(Power Law)，有一个很长的“尾巴”。虽然这个长尾的特性在本书中没什么用处，但我们会发现我们建立的很多图中有这个特性，但是我强烈的建议你深入的去挖掘如果你有兴趣的话。一个好的出发点是齐普夫定律（Zipf's Law).

在这本书中，我们将发更多的时间来用自动启发式学习来分析数据。这章作为介绍来激发你的头脑，使得你来考虑用手边简单易行的办法来挖掘数据。来结束这章之前，让我们来可视化这个图，以此确保我们的直觉将我们引向了正确的方向。

虚拟tweet图

Graphviz是一个重要的工具在虚拟化社区。这一节介绍一个可行的方法来可视化tweet数据图：把它们导出为DOT语言，一个简单的文本格式，能够被Graphviz运用。Graphviz的二进制文件可以用于任意的平台，在它的官网上可以下载，无论什么平台其安装也是很方便的。当Graphviz被安装后，*nix用户就可以用easy_install pygraphviz来安装其python接口，windows用户安装PyGraphviz很困难，这里介绍一个简单的方法生成DOT格式输出。

示例1－12介绍了一个方法可用于任意平台

OUT = "snl_search_results.dot"
try:
     nx.drawing.write_dot(g, OUT)
except ImportError, e:
     # Help for Windows users:
     # Not a general-purpose method, but representative of
     # the same output write_dot would provide for this graph
     # if installed and easy to implement
     dot = ['"%s" -> "%s" [tweet_id=%s]' % (n1, n2, g[n1][n2]['tweet_id']) \
         for n1, n2 in g.edges()]
     f = open(OUT, 'w')
     f.write('strict digraph {\n%s\n}' % (';\n'.join(dot),))
     f.close()

DOT格式的输出如示例1－13

示例1－13， DOT语言的输出

strict digraph {
"@ericastolte" -> "bonitasworld" [tweet_id=11965974697];
"@mpcoelho" -> "Lil_Amaral" [tweet_id=11965954427];
"@BieberBelle123" -> "BELIEBE4EVER" [tweet_id=11966261062];
"@BieberBelle123" -> "sabrina9451" [tweet_id=11966197327];
}

有了DOT格式的输出，下一步就将它转换为图形了。Graphviz提供了各种布局算法来虚拟化所导出的图；circo, 一个工具能渲染图为圆形风格的布局，适用于辐射状的拓扑结图，有一个中心点与其它度数为1的结点为相连。*nix用户，可以用下面的命令将snl_search_results.dot从NetworkX导出为snl_search_results.dot.png，然后就可以用图形查看器找开了。

$ circo -Tpng -Osnl_search_results snl_search_results.dot

Windows用户可以用GVedit来渲染这个文本，如图1－3.你可以读到更多的选项关于Graphviz在线上文档。图的可视化证实了我们前面的分析，且度数最高的结点是@justinbieber，这个最多讨论的话题。要明白一点的是，如果我们收集更多的tweets,我们将得到更多的内部相连的子图。进一步的分析留给积极的读者们了，这一章主要是准备好开发环境，并激发读者们探索有趣话题的欲望。

Graphviz会出现在本书的其他章节，如果你认为自己是一个数据分析科学家，它是一个你要掌握的工具。也就是说，我们也将用到其他可视化工具。接下来的章节，我们将涉及其它社交网络数据及分析技术。

综合：用Protovis来可视化转发的tweets.

一个关键的示例脚本综合了这一节的大部分内容，并且增加了一个可视化方法，这就是这一节要做的。另外输出一些有用的信息到终端，它接受一个搜索关键字作为参数，获取，解析，并弹出浏览器来显示可视化数据作为一个可交互的基于html5的图。可以从这本书的官方代码中找到http://github.com/ptwobrussell/Mining-the-Social-Web/blob/master/python_code/introduction__retweet_visualization.py, 强烈建议你试一试。

我们将用再次提到Protovis －－这个示例中用到的可视化工具集，在这本书的后面几章中。图1－4是这个示例中Protovis的输出，这只是一个开始，你可以用它做更多。

结束语

这一章是个开始，让你认识到它是多么容易用python的交互解释器来挖掘和分析twitter的数据。在进入下一章之前，它是很重要的让你感觉易于使用python的开发环境，并且强烈建议你熟悉twitter的API和Graphviz.如果你还想尝试其它的，推荐canviz, 一个项目目的是将Graphviz的图画到浏览器中。你可能也想调查一个IPython,一个更好的python解释器，提供tab补全，历史追综，以及其它更多功能。在这本书中许多的工作与可执行脚本有关，但是它是很重要的，你去多尝试新主意，去调试等等。

图1－2， Graphviz渲染的图形布局搜索结果

图1－3，windows用户用GVedit代替Graphviz

图1－4，一个可交互的Protovis图

mahout_xb

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
4
评论
第一章，介绍：挖掘twitter的数据

虽然我们可以从讨论社交网络的APIs, schemaless的设计，或者许多其它的事开始，但是让我们直接进入一些介绍性的例子，以此来说明去收集和分析社交网站的数据。这是一篇入门章节，目的是激发你的兴趣，让你思索一些问题，而余下的章节会涉及到细节。我们将先将开发环境搭建个，然后马上开始收集个分析一些twitter的数据。安装Python开发环境这本书的示例以用pytho
复制链接

扫一扫