最近爬了一下新浪微博,去网上看了很多例子,github上也有几个优质的现成可用的,但是对于我来说还是有点庞大了,所以自己摸索了一下写了这个爬虫,主要爬取就两点,文章内容和发布时间,关于文章内容它一部分微博因为篇幅限制有个全文按钮,点击全文才可以看到全部,自己写了个判断,希望对大家有帮助。
这里以镇江发布为例
(顺便说一下,网页版的新浪微博有三个网站,分别是www.weibo.com www.m.weibo.cn www.weibo.cn)
这三个网站简单来说就是一个比一个简陋,我们只是为了爬取数据,当然是越简单越好,所以选择最后一个
可以看到我们要拿取的就是正文和时间
而这个正文它没有全文按钮,说明显示出来的就是全部了,我们右键检查可以发现在源码中可以找到,直接copyxpath
对于有些文章多了个全文按钮