新浪微博爬取全文内容

  最近爬了一下新浪微博,去网上看了很多例子,github上也有几个优质的现成可用的,但是对于我来说还是有点庞大了,所以自己摸索了一下写了这个爬虫,主要爬取就两点,文章内容和发布时间,关于文章内容它一部分微博因为篇幅限制有个全文按钮,点击全文才可以看到全部,自己写了个判断,希望对大家有帮助。

这里以镇江发布为例

 

(顺便说一下,网页版的新浪微博有三个网站,分别是www.weibo.com  www.m.weibo.cn  www.weibo.cn)

这三个网站简单来说就是一个比一个简陋,我们只是为了爬取数据,当然是越简单越好,所以选择最后一个

可以看到我们要拿取的就是正文和时间

而这个正文它没有全文按钮,说明显示出来的就是全部了,我们右键检查可以发现在源码中可以找到,直接copyxpath

 

 对于有些文章多了个全文按钮

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值