1.微博抓取的含义
2.微博抓取的数据
微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、微文数、如果是转发的微博还包括转发者及转发者说的话的详细信息.
3.微博抓取的工具
a.ROST 新浪定时监控工具,基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据,支持实时(最少5秒钟抓取更新一次)抓取数据
b.新浪微博数据采集器 V1.0
4.微博抓取的方法
a.正则表达式,自己做爬虫。要解决两个问题:模拟登录和页面存储与数据处理
b.微博给的api,有每日使用次数的限制。由于请求方式的不同,导致返回的格式不同。常用的请求格式有两种:XML和JSON。
对于XML,使用JDOM4J的方式进行抓取,本身DOM的要求比较严格,因此对于那种一些用户偏好的个性化字符格式很难进行获取
对于JSON,是一种更加lightweighting的数据交换方式,文件不具有明显的强结构特征。
ex.新浪api 开发的流程
http://jelen-123.iteye.com/blog/1279563
App Key:3197495784 App Secret:c2ba81f20da5807e5dccc1ae0166fc85
c.两者结合
d.map/reduce方法分布式获取微博信息