爬取抗压吧的《猪狗恩仇录》

本文讲述了如何使用Python爬虫技术爬取抗压吧中的《猪狗恩仇录》帖子,包括分析URL,优化爬取内容以去除额外标签,并将数据存入本地PDF文件。
摘要由CSDN通过智能技术生成

逛抗压吧的时候,看到了一篇有趣的的帖子,《猪狗恩仇录》明凯与简自豪的江湖往事!,于是本着没事爬一爬的原则(吃饱了那啥),就试着爬取一下,并存储到本地

爬取目标:
+ 对抗压吧进行爬取(理论上可以爬取任意贴)
+ 指定是否只抓取楼主的发帖内容
+ 将抓取到的内容进行分析并保存成文件

0、爬取效果

明明在pycharm中打开txt看得那么顺眼,在本地打开就GG了,所以把他转成了pdf格式

1、分析url

这次爬取的吧也是多页的,所以先来看一下url,https://tieba.baidu.com/p/4735912130?see_lz=1&pn=1,跳转多几页,是否只看楼主,就会发现?see_lz=表示是否只看楼主(1表示是,0表示不是),pn表示当前访问的页数,现开始分析页面的代码,爬取需要的贴子的标题和内容,还有贴吧的页数。

贴子的标题
贴子的内容
贴子的总页数
分析html代码可得爬取需要的正则为:

#page为整个页面的html代码
#贴子标题
pattern1 = re.compile(r'<h3 class="core_title_txt pull-left text-overflow.*?"(.*?)</h3>',re.S)
title = re.search(pattern,page)
pattern2 = re.compile(r'<li class="l_reply_num" .*?</span>.*?<span .*?>(.*?)</span>',re.S)
#贴子总页数
pageNum = re.search(pattern,page)
#贴子内容
pattern = re.compile(r'<div id="post_content_.*?>(.*?)</div>')
contents = re.findall(pattern,page)

2、优化爬取内容

爬取后发现有一些额外的标签输

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值