python大神写的代码_【python】抄写大神的糗事百科代码

importurllib.requestimporturllib.parseimportreimporttime#糗事百科爬虫类

classQSBK:#初始化方法,定义一些变量

def __init__(self):

self.pageIndex= 1self.user_agent= 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36'self.headers= {'User-Agent': self.user_agent}#存放段子的变量,每个元素是每一页的段子

self.stories =[]#存放程序是否继续运行的变量

self.enable =False#传入某一页的索引获得页面代码

defgetPage(self, pageIndex):try:

url= 'http://www.qiushibaike.com/hot/page/' +str(pageIndex)

request= urllib.request.Request(url, headers =self.headers)

response=urllib.request.urlopen(request)

pageCode= response.read().decode('utf-8','ignore') #这个ignore忽略非法字符 一定要加 不然总报解码错误

returnpageCodeexcepturllib.error.URLError as e:if hasattr(e, "reason"):print(u"连接糗事百科失败,错误原因:", e.reason)returnNone#传入某一页代码,返回本页不断图片的段子列表

defgetPageItems(self, pageIndex):

pageCode=self.getPage(pageIndex)if notpageCode:print(u"页面加载失败....")returnNone

pattern= re.compile('

.*?(.*?).*?

'content">(.*?).*?

(.*?)
(.*?)', re.S)

items=re.findall(pattern, pageCode)#用来存储每页的段子

pageStories =[]for item initems:

haveImg= re.search("img", item[3])if nothaveImg:

replaceBR= re.compile('
')

text= re.sub(replaceBR, "\n", item[1])

pageStories.append([item[0].strip(), text.strip(),item[4].strip()]) #.strip() 用来删除空白符

returnpageStories#加载并提取页面的内容,加入到列表中

defloadPage(self):#如果当前未看的页数少于2页,则加载新一页

if self.enable ==True:if len(self.stories) < 2:#获取新一页

pageStories =self.getPageItems(self.pageIndex)#将该页的段子存放到全局list中

ifpageStories:

self.stories.append(pageStories)#页码加1,下次读取下一页

self.pageIndex += 1

#每次敲回车打印一个段子

defgetOneStory(self,pageStories,page):#遍历一页的段子

for story inpageStories:#等待用户输入

input_v =input()#每当输入回车一次,判断一下是否要加载新页面

self.loadPage()#如果输入Q则程序结束

if input_v == "Q":

self.enable=Falsereturn

print(u"第%d页\t发布人:%s\t赞:%s\n%s" % (page, story[0], story[2],story[1]))#开始方法

defstart(self):print(u"正在读取糗事百科,按回车查看新段子,Q退出")#使变量为True,程序可以正常运行

self.enable =True#先加载一页内容

self.loadPage()#局部变量,控制当前读到2了第几页

nowPage =0whileself.enable:if len(self.stories) >0:#从全局list中获取一页段子

pageStories =self.stories[0]#当前读到的页数加1

nowPage += 1

#删除已经取出的元素

delself.stories[0]#输出该页的段子

self.getOneStory(pageStories,nowPage)

spider=QSBK()

spider.start()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值