java 爬百度贴吧帖子_网络爬虫入门——案例一：爬取百度贴吧帖子

最新推荐文章于 2021-03-12 10:06:57 发布

孤不谷

最新推荐文章于 2021-03-12 10:06:57 发布

阅读量232

点赞数

文章标签： java 爬百度贴吧帖子

本文链接：https://blog.csdn.net/weixin_29691667/article/details/114891547

版权

#-*- coding: utf-8 -*-

"""Created on Fri Apr 15 11:47:02 2016

@author: wuhan"""

importurllibimporturllib2importreimporttimeimportos#reload(sys)#sys.setdefaultencoding("utf-8")

classTool:

removeImg= re.compile('| {12}')

removeAddr= re.compile('|')

replaceLine= re.compile('

|')

replaceTD= re.compile('

replacePara= re.compile('

replaceBR= re.compile('
|
')

removeExtraTag= re.compile('<.>')defreplace(self,x):

x= re.sub(self.removeImg, "", x)

x= re.sub(self.removeAddr, "", x)

x= re.sub(self.replaceLine, "\n", x)

x= re.sub(self.replaceBR, "\n", x)

x= re.sub(self.replacePara, "\n", x)

x= re.sub(self.replaceTD, "\t", x)

x= re.sub(self.removeExtraTag, "", x)returnx.strip()classBDTB:def __init__(self, baseUrl, seeLZ, floorTag):

self.baseURL=baseUrl

self.seeLZ= '?see_lz=' +str(seeLZ)

self.tool=Tool()

self.file=None

self.floor= 1self.defaultTitle= u'百度贴吧'self.floorTag=floorTagdefgetPage(self, pageNum):try:

url= self.baseURL + self.seeLZ + '&pn=' +str(pageNum)

request=urllib2.Request(url)

response=urllib2.urlopen(request)return response.read().decode('utf-8')excepturllib2.URLError, e:if hasattr(e, "reason"):print u'百度贴吧链接失败，错误原因：', e.reasonreturnNonedefgetTitle(self, page):

pattern= re.compile('

.?(.?)',re.S)

result=re.search(pattern, page)ifresult:return result.group(1).strip()else:returnNonedefgetContents(self,page):

pattern= re.compile('

self.file= open(title + ".txt" , "w+")else:

self.file= open(self.defaultTitle + ".txt" , "w+")defwriteData(self, contents):for item incontents:if self.floorTag == '1':

floorLine= "\n" + str(self.floor) + u"-----------------------------------------------------------------------------------------------------------------------------------------\n"self.file.write(floorLine)

self.file.write(item)

self.floor+= 1

defstart(self):

indexPage= self.getPage(1)

pageNum=self.getPageNum(indexPage)

title=self.getTitle(indexPage)

self.setFileTitle(title)if pageNum ==None:print "URL已失效，请重试"

return

try:print "该贴子共有" + str(pageNum) + "页"

for i in range(1, int(pageNum)+1):print "正在写入第" + str(i) + "页数据"page=self.getPage(i)

contents=self.getContents(page)

self.writeData(contents)