利用简单的正则表达式完成半自动爬虫开发---爬取百度贴吧帖子下面的评论

最新推荐文章于 2024-07-20 11:27:23 发布

许同学

最新推荐文章于 2024-07-20 11:27:23 发布

阅读量1.7k

点赞数 1

分类专栏：利用正则表达式抓取贴吧评论文章标签： python spider regular expression csv

本文链接：https://blog.csdn.net/weixin_41562457/article/details/88066318

版权

利用正则表达式抓取贴吧评论专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种从百度贴吧抓取帖子信息的方法，包括用户名、楼层数、评论内容及时间，通过解析页面源代码，利用正则表达式提取数据，并使用csv模块存储至文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.首先选择百度贴吧的某个帖子
关于时间的本质，看看科学家都是怎么说的
2.查看页面的源代码，然后把源代码保存下来。
3.根据源代码找出规律，根据先抓大再抓小的原则，把每一层楼先抓出来，再抓出用户名，楼层数，评论内容，评论时间

4.爬虫代码–思路【用正则表达式抓出每一层的信息，然后把字典存入列表，然后用csv模块，把含有字典元素的列表写入csv文件】（csv文件直接用excel打开在不同的操作系统有可能出现乱码，但是用python打印出来数据是一样的）
在这里插入图片描述
5.运行结果