《python爬虫实战》:爬取贴吧上的帖子

本文是《Python爬虫实战》系列的一部分,通过实例讲解如何爬取贴吧帖子的标题、作者等信息。作者分享了在没有使用BeautifulSoup库的情况下,如何运用正则表达式从HTML代码中提取所需内容。通过分析网页HTML结构,确定正则表达式规则,从而实现对帖子标题和作者等信息的抓取。完整代码可在GitHub找到。
摘要由CSDN通过智能技术生成

《python爬虫实战》:爬取贴吧上的帖子

经过前面两篇例子的练习,自己也对爬虫有了一定的经验。
由于目前还没有利用BeautifulSoup库,因此关于爬虫的难点还是正则表达式的书写。

但是,当写几个正则表达式之后,发现还是有一定的规则可循的,只要我们的目的明确,想得到网页的什么,我们就直接在该网页上,找到我们想要的内容在html代码中出现的格式是怎么样的。

例如,我们想获取贴吧上帖子的标题。
解决方法为:在相应的网页的html代码中找到title出现的地方。然后提取正则表达式。

根据上面的截图:提取的正则表达式如下:

pattern=re.compile(r'<h3 class="core_title_txt pull-left text-overflow .*?>(.*?)</h3>',re.S)

因此,得到帖子的标题的代码可以这么写。

#得到帖子的标题
    def getPageTitle(self,pageNum):
        content=self.getPageContent(pageNum)#得到网页的html代码
        pattern=re.compile(r'<h3 class="core_title_txt pull-left text-overflow .*?>(.*?)</h3>',re.S)
        title=re.search(pattern,content)
        if title:
            #print title.group(1).strip() 测试输出
            return title.group(1).strip()
        else:
            print None

同样的道理,我们可以得到获取帖子作者的代码如下:

#得到帖子的作者
    def getPageAuthor(self,pageNum):
        content=self.getPageContent(pageNum)
        # <div class="louzhubiaoshi  j_louzhubiaoshi" author="懂球君">
        pattern=re.compile(r'<div class="louzhubiaoshi  j_louzhubiaoshi" author="(.*?)">',re.S) 
        author=re.search(pattern,content)
        if author:
            print author.group(1).strip()#测试输出
            return author.group(1).strip()
        else :
            print None

同样的道理,可以得到任何我们想要的内容。比例:帖子的回复总数等。

下面是完整代码:

#encoding=utf-8
#功能:抓取百度贴吧中帖子的内容
import urllib2
import urllib
import re
#定义一个工具类来处理内容中的标签
class
  • 4
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值