新浪微博如火如荼,基于微博的各种应用也层出不穷。有一种共识似乎是:微博数据蕴含着丰富的信息,加以适当的挖掘,能够实现众多商业应用。恰好社会网络分析也是我之前有所了解并持续学习的一个领域,因此我做了微博数据分析方面的一些尝试。这些尝试是比较初步的,属于探索性的阶段,当然不能跟微博分析家这样比较成熟的应用相提并论。并且我的分析基本上都出于想当然的直觉感受,没有具体的理论支撑,这方面需要试着找点书籍来阅读一下,貌似有蛮多可以参考的。
一、用R登录并发布微博
之所以仍然选择用R来做这个登录和发布的工作,是考虑到分析过程的连续性,毕竟能够在同一个平台下面完成所有的工作,还是很令人身心愉悦的。这里借助了一款命令行浏览器cURL,这个浏览器在R中可以用RCurl实现,简单的介绍建议参考medo的《R不务正业之RCurl》。由于我对HTTP这些东西都属于初级未入门水平,没能实现直接的登录,只好利用了cookie实现间接登录。但是最终结果还是蛮稳定的。编写这个登录和发布微博的函数,目的之一是为后续的数据采集做准备,但同时也能够实现同步更新不同平台信息的功能,例如写一条语句就能够把人人状态、新浪微博、飞信签名等等同步更新,还是很有趣的。只是人人状态和飞信签名貌似不是很稳定,偶尔能用偶尔报错,我稍微测试了一下,可能是cookie的问题,目前没有深入探索。
(更新:目前已经实现了直接登录,这样或许可以绕过cookie的问题。)
总地来说这个功能的效果就是这个样子。
![](http://www.itongji.cn/uploads/allimg/120308/1_120308005828_1.jpg)
![](http://www.itongji.cn/uploads/allimg/120308/1_120308005714_1_lit.png)
![](http://www.itongji.cn/uploads/allimg/120308/1_120308005715_2_lit.png)