使用httpclient、htmlcleaner 、xpath 采集新浪微博3G站点数据
0、背景原来对新浪微博的采集主要靠对weibo.com这个入口进行,但是最近发现有人使用weibo.cn这个入口操作。应为weibo.cn对应的是微博的3g版本,基本没有广告,页面小,这样下载数据量会小很多,并且3g版本的采集比较简单。于是就有了这个3g版本的采集程序。写出来,分享给大家,希望对有需要的朋友有所帮助。使用到的类库:httpclient、htmlcleaner
原创
2013-02-15 23:48:39 ·
7938 阅读 ·
2 评论