利用python的爬虫技术爬取百度贴吧的帖子

嗨学编程

于 2019-06-19 15:58:10 发布

阅读量698

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Python爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fei347795790/article/details/92834529

Python爬虫专栏收录该内容

678 篇文章

订阅专栏

该博客介绍用Python实现贴吧楼主帖子爬取。目标是爬取楼主帖子，显示楼层与题目，将内容写入文件并动态显示进度。使用requests库、正则表达式和bs4库，通过for循环爬取多页信息，构建了爬取网页源码、提取内容、修改内容及写入文件的思路，还给出了全部代码。

实现目标：

1，爬取楼主所发的帖子

2，显示所爬去的楼层以及帖子题目

3，将爬取的内容写入到文件里，并实现动态显示爬取进度

实现工具：python的requests库和正则表达式以及bs4库

首先我们爬取的帖子网址为：https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，该网址是只看楼主的帖子的网址，因此该网站的源代码内容均为楼主所发贴的内容，爬取起来也比较方便。我们发现需要爬取的帖子一共有5页，我们可以通过for循环来进行对每一页信息的爬取。

接下来我们来整体构建爬取的思路：

1，爬取该网页的源代码

2，用正则表达式提取所需内容

3，用正则匹配对所取内容进行精准修改以达到我们想要的内容

4，把内容写入到文件并显示写入进度

以下是全部代码

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。