学习记录：python百度贴吧爬虫

最新推荐文章于 2024-08-10 10:46:00 发布

ITL_406_no4

最新推荐文章于 2024-08-10 10:46:00 发布

阅读量287

点赞数

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/sinat_33994867/article/details/54915922

版权

python 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

http://www.kuqin.com/shuoit/20150424/345877.html
继续从酷勤网上学习相关python爬虫。
这次的代码是面向百度贴吧的爬虫

学习的过程中遇到的些许问题：
1.按照顺序逐渐添加代码的过程中，由于第一段代码的getPage()方法返回的是response，所以在后面添加代码的时候 page=self.getPage(1)
…………
result=re.search(pattern,page)
会报错
原因是由于，self.getPage(1)在之前的方法里返回的结果是response，正确应该返回response.read()或者 page=self.getPage(1).read(）方能运行成功
2.result.group(1) 这里的group(1)是输出匹配的第一个内容，假如是group(0)则是输出所以匹配字段。
3.尝试从其他文件导入tool.py，发现用import tool 会出现找不到tool里的变量问题，而用from tool import *则没这种问题。ps.加入要从其他文件夹里引用文件，则需要在对应文件夹中加入_ inti _.py的文件。

新建一个init.py 的空文件，此时的该文件夹不再是一个普通的文件夹，而是一个包 package

4..py文件引入后会产生一个.pyc文件，方便下次引入，提高效率

5.re.compile()和re.sub()用起来挺方便的

__author__='pwp'
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
import time
#百度贴吧爬虫类
#处理页面标签类
class Tool:
        #取出img标签,7位长空格
        removeImg = re.compile('<img.*?>| {7}|')
        #删除超链接标签
        removeAddr = re.compile('<a.*?>|</a>')
        #把换行的标签换为\n
        replaceLine = re.compile('<tr>|<div>|</div>|</p>')
        #将表格制表<td>替换为t
        replaceTD = re.compile('<td>')
        #把段落开头换位\n加两空格
        replacePare = re.compile('<p.*?>')
        #讲换行符或者双换行符替换成\n
        replaceBR = re.compile('<br><br>|<br>')
        #讲其余标签剔除
        removeExtraTag = re.compile('<.*?>')
        def replace(self,x):
                x = re.sub(self.removeImg,"",x)
                x = re.sub(self.removeAddr,"",x)
                x = re.sub(self.replaceLine,"\n",x)
                x = re.sub(self.replaceTD,"\t",x)
                x = re.sub(self.replacePare,"\n  ",x)
                x = re.sub(self.replaceBR,"\n",x)
                x = re.sub(self.removeExtraTag,"",x)
                return x.strip()

class BDTB:
    #初始化,传入基地址.是否只看楼主的参数
    def __init__(self,baseUrl,seeLZ,floorTag):
        self.baseURL = baseUrl
        self.seeFlag = str(seeLZ)
        self.seeLZ = '?see_lz='+str(seeLZ)
        #HTML标签剔除工具
        self.tool = Tool()
        #全局变量file,文件写入操作对象
        self.file = None
        #楼层标号,初始为1
        self.floor = 1
        #默认的标题,如果没成功获取标题的化就用这个标题
        self.defaultTitle = u"百度贴吧"
        #是否写入楼分隔符的标记
        self.floorTag = floorTag
        self.time=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
    #传入页面,获取该页帖子的代码
    def getPage(self,pageNum):
        try:
            url = self.baseURL+self.seeLZ+'&pn='+str(pageNum)
            request = urllib2.Request(url)
        #   print url
            response = urllib2.urlopen(request)
        #   print response.read()   
            return response.read().decode('utf-8')
        except urllib2.URLError, e:
            if hasattr(e,"reason"):
                print u"链接百度贴吧失败,错误原因",e.reason
            return None
    #获取帖子标题
    def getTitle(self,page):
        #page = self.getPage(1)
        pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S)
    #   pattern = re.compile('<li.*?class="l_reply_num.*?<span.*?class="red.*?<span.*?class="red">(.*?)</span>',re.S)
        result = re.search(pattern,page)
        if result:
        #   print result.group(1)
        #   print '1'
            return result.group(1).strip()
        else:
        #   print '2'
            return None
    def getPageNum(self,page):
    #   page = self.getPage(1)
        pattern = re.compile('<li.*?class="l_reply_num.*?<span.*?class="red.*?<span.*?class="red">(.*?)</span>',re.S)
    #   pattern = re.compile('<div.*?id="post_content_.*?>(.*?)</div>',re.S)
        result = re.search(pattern,page)
        if result:
            #print result.group(1).strip()
            return result.group(1).strip()
        else:
            return None
    def getContent(self,page):
        #page = self.getPage(pageN)
        pattern = re.compile('<div.*?id="post_content_.*?>(.*?)</div>',re.S)
        items = re.findall(pattern,page)
        contents=[]
        #floor = 1
    #   print self.tool.replace(items[1])
        for item in items:
        #   print floor,u"楼--------------------------------------------"
        #   print self.tool.replace(item)
        #   floor += 1
            content = "\n"+self.tool.replace(item)+"\n"
            contents.append(content.encode('utf-8'))
        return contents
    def setFileTitle(self,title):
        #如果标题不是None,即成功获取到标题
        if title is not None:
            if self.seeFlag == '1':
                self.file = open(self.time+u"_只看楼主_"+title+".txt","w+")
            else:
                self.file = open(self.time+title+".txt","w+")
        else :
            if self.seeFlag == '1':
                self.file = open(self.time+u"_只看楼主_"+self.defaultTitle+".txt","w+")
                        else:
                self.file = open(self.time+self.defaultTitle+".txt","w+")
            #self.file = open("只看楼主"+self.defaultTitle+".txt","w+")
    def writeData(self,contents):
        #向文件写入每一楼的信息
        for item in contents:
            if self.floorTag == '1':
                #楼之间的分隔符
                floorLine = "\n"+str(self.floor)+u"--------------------------------------------------------------------------"
                self.file.write(floorLine)
                self.file.write(item)
                self.floor += 1
    def start(self):
        indexPage = self.getPage(1)
        pageNum = self.getPageNum(indexPage)
        title = self.getTitle(indexPage)
        self.setFileTitle(title)
        if pageNum == None:
            print "URL已失效,请重试"
            return 
        try:
            print "该帖子共有"+str(pageNum)+"页"
            for i in range(1,int(pageNum)+1):
                print "正在写入第"+str(i)+"页数据"
                page = self.getPage(i)
                contents = self.getContent(page)
                self.writeData(contents)
            #写入异常
        except IOError,e:
            print "写入异常,原因"+e.message
        finally:
            print "写入任务完成"
            print u"请输入帖子代号"


baseURL = 'http://tieba.baidu.com/p/3138733512'
seeLZ = raw_input("是否只获取楼主发言,是输入1,否输入0\n")
floorTag = raw_input("输入写入楼层信息,是输入1,否输入0\n")
bdtb = BDTB(baseURL,seeLZ,floorTag)
bdtb.start()
#bdtb.getPage(1)
#bdtb.getTitle()
#bdtb.getPageNum()
#bdtb.getContent(1)
#bdtb.getContent(1)

ITL_406_no4

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习记录：python百度贴吧爬虫

http://www.kuqin.com/shuoit/20150424/345877.html 继续从酷勤网上学习相关python爬虫。这次的代码是面向百度贴吧的爬虫学习的过程中遇到的些许问题： 1.按照顺序逐渐添加代码的过程中，由于第一段代码的getPage()方法返回的是response，所以在后面添加代码的时候 page=self.getPage(1) ………… result=r
复制链接

扫一扫

专栏目录