爬取抗压吧的《猪狗恩仇录》

最新推荐文章于 2018-11-13 05:51:57 发布

15zhazhahe

最新推荐文章于 2018-11-13 05:51:57 发布

阅读量859

点赞数

分类专栏： python学习 Python学习文章标签：爬虫 python

本文链接：https://blog.csdn.net/Richie_ll/article/details/57084038

版权

本文讲述了如何使用Python爬虫技术爬取抗压吧中的《猪狗恩仇录》帖子，包括分析URL，优化爬取内容以去除额外标签，并将数据存入本地PDF文件。

摘要由CSDN通过智能技术生成

逛抗压吧的时候，看到了一篇有趣的的帖子，《猪狗恩仇录》明凯与简自豪的江湖往事！，于是本着没事爬一爬的原则（吃饱了那啥），就试着爬取一下，并存储到本地

爬取目标：
+ 对抗压吧进行爬取（理论上可以爬取任意贴）
+ 指定是否只抓取楼主的发帖内容
+ 将抓取到的内容进行分析并保存成文件

0、爬取效果

明明在pycharm中打开txt看得那么顺眼，在本地打开就GG了，所以把他转成了pdf格式

1、分析url

这次爬取的吧也是多页的，所以先来看一下url，https://tieba.baidu.com/p/4735912130?see_lz=1&pn=1，跳转多几页，是否只看楼主，就会发现?see_lz=表示是否只看楼主（1表示是，0表示不是），pn表示当前访问的页数，现开始分析页面的代码，爬取需要的贴子的标题和内容，还有贴吧的页数。

贴子的标题
贴子的内容
贴子的总页数
分析html代码可得爬取需要的正则为：

#page为整个页面的html代码
#贴子标题
pattern1 = re.compile(r'<h3 class="core_title_txt pull-left text-overflow.*?"(.*?)</h3>',re.S)
title = re.search(pattern,page)
pattern2 = re.compile(r'<li class="l_reply_num" .*?</span>.*?<span .*?>(.*?)</span>',re.S)
#贴子总页数
pageNum = re.search(pattern,page)
#贴子内容
pattern = re.compile(r'<div id="post_content_.*?>(.*?)</div>')
contents = re.findall(pattern,page)

2、优化爬取内容

爬取后发现有一些额外的标签输

最低0.47元/天解锁文章

15zhazhahe

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬取抗压吧的《猪狗恩仇录》

逛抗压吧的时候，看到了一篇有趣的的帖子，《猪狗恩仇录》明凯与简自豪的江湖往事！，于是本着没事爬一爬的原则（吃饱了那啥），就试着爬取一下，并存储到本地爬取目标： + 对抗压吧进行爬取（理论上可以爬取任意贴） + 指定是否只抓取楼主的发帖内容 + 将抓取到的内容进行分析并保存成文件0、爬取效果明明在pycharm中打开txt看得那么顺眼，在本地打开就GG了，所以把他转成了pdf格式
复制链接

扫一扫

专栏目录