importurllib.requestimporturllib.parseimportreimporttime#糗事百科爬虫类
classQSBK:#初始化方法,定义一些变量
def __init__(self):
self.pageIndex= 1self.user_agent= 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36'self.headers= {'User-Agent': self.user_agent}#存放段子的变量,每个元素是每一页的段子
self.stories =[]#存放程序是否继续运行的变量
self.enable =False#传入某一页的索引获得页面代码
defgetPage(self, pageIndex):try:
url= 'http://www.qiushibaike.com/hot/page/' +str(pageIndex)
request= urllib.request.Request(url, headers =self.headers)
response=urllib.request.urlopen(request)
pageCode= response.read().decode('utf-8','ignore') #这个ignore忽略非法字符 一定要加 不然总报解码错误
returnpageCodeexcepturllib.error.URLError as e:if hasattr(e, "reason"):print(u"连接糗事百科失败,错误原因:", e.reason)returnNone#传入某一页代码,返回本页不断图片的段子列表
defgetPageItems(self, pageIndex):
pageCode=self.getPage(pageIndex)if notpageCode:print(u"页面加载失败....")returnNone
pattern= re.compile('
.*?(.*?).*?'content">(.*?).*?
(.*?)items=re.findall(pattern, pageCode)#用来存储每页的段子
pageStories =[]for item initems:
haveImg= re.search("img", item[3])if nothaveImg:
replaceBR= re.compile('
')
text= re.sub(replaceBR, "\n", item[1])
pageStories.append([item[0].strip(), text.strip(),item[4].strip()]) #.strip() 用来删除空白符
returnpageStories#加载并提取页面的内容,加入到列表中
defloadPage(self):#如果当前未看的页数少于2页,则加载新一页
if self.enable ==True:if len(self.stories) < 2:#获取新一页
pageStories =self.getPageItems(self.pageIndex)#将该页的段子存放到全局list中
ifpageStories:
self.stories.append(pageStories)#页码加1,下次读取下一页
self.pageIndex += 1
#每次敲回车打印一个段子
defgetOneStory(self,pageStories,page):#遍历一页的段子
for story inpageStories:#等待用户输入
input_v =input()#每当输入回车一次,判断一下是否要加载新页面
self.loadPage()#如果输入Q则程序结束
if input_v == "Q":
self.enable=Falsereturn
print(u"第%d页\t发布人:%s\t赞:%s\n%s" % (page, story[0], story[2],story[1]))#开始方法
defstart(self):print(u"正在读取糗事百科,按回车查看新段子,Q退出")#使变量为True,程序可以正常运行
self.enable =True#先加载一页内容
self.loadPage()#局部变量,控制当前读到2了第几页
nowPage =0whileself.enable:if len(self.stories) >0:#从全局list中获取一页段子
pageStories =self.stories[0]#当前读到的页数加1
nowPage += 1
#删除已经取出的元素
delself.stories[0]#输出该页的段子
self.getOneStory(pageStories,nowPage)
spider=QSBK()
spider.start()