python网页回帖统计_李亚涛:python抓取百度贴吧回帖时间,回帖人,回帖内容信息...

大家好,今天给大家分享一下如何利用python抓取百度贴吧相关信息

为了演示,我就随便在iphone贴吧找了一个内容相对丰富的帖子。

大家好,今天给大家分享一下如何利用python抓取百度贴吧相关信息

为了演示,我就随便在iphone贴吧找了一个内容相对丰富的帖子。

b627b0bfb2970da31722b5aa58d775e2.png

我们只是演示,所以我选择抓取

回帖时间

回帖内容

回帖时

这3个信息,其实比较聪明的人应该知道,这个可以做信息聚合,标题+这些回复内容不就是一篇原创信息。

先分析一下思路:

1、获取单个页面的源代码

2、大概看一下页数,当然我们也可以用正则获取

这里举例,我看了一下有733页的信息,演示我就抓取前100页吧。

3、信息量比较大,这里我们可能会利用到多线程的抓取

4、获取每一页所要获取的内容,这里用传统正则可能稍微复杂一点,我们用神器xpath

5、最后把获取到的内容整理一下写入到文本文件contents.txt里

代码这里不方便发,不然文章可能会被删除,有兴趣的到我公众号可以去看

运行效果如下:

a5094b784678c726a726b9da070bb7a2.png

e5105d4e5a0d9cbe61bcd75a3aef987b.png

可以看到,抓取到了将近1万行的数据,运行时间才几秒中,非常快了。

有兴趣的可以自己试试

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值