python大神写的代码_【python】抄写大神的糗事百科代码

最新推荐文章于 2024-01-31 06:31:41 发布

weixin_39694174

最新推荐文章于 2024-01-31 06:31:41 发布

阅读量84

点赞数

文章标签： python大神写的代码

importurllib.requestimporturllib.parseimportreimporttime#糗事百科爬虫类

classQSBK:#初始化方法，定义一些变量

def __init__(self):

self.pageIndex= 1self.user_agent= 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36'self.headers= {'User-Agent': self.user_agent}#存放段子的变量，每个元素是每一页的段子

self.stories =[]#存放程序是否继续运行的变量

self.enable =False#传入某一页的索引获得页面代码

defgetPage(self, pageIndex):try:

url= 'http://www.qiushibaike.com/hot/page/' +str(pageIndex)

request= urllib.request.Request(url, headers =self.headers)

response=urllib.request.urlopen(request)

pageCode= response.read().decode('utf-8','ignore') #这个ignore忽略非法字符一定要加不然总报解码错误

returnpageCodeexcepturllib.error.URLError as e:if hasattr(e, "reason"):print(u"连接糗事百科失败，错误原因：", e.reason)returnNone#传入某一页代码，返回本页不断图片的段子列表

defgetPageItems(self, pageIndex):

pageCode=self.getPage(pageIndex)if notpageCode:print(u"页面加载失败....")returnNone

pattern= re.compile('

.*?(.*?).*?

'content">(.*?).*?

(.*?)

(.*?)', re.S)

items=re.findall(pattern, pageCode)#用来存储每页的段子

pageStories =[]for item initems:

haveImg= re.search("img", item[3])if nothaveImg:

replaceBR= re.compile('
')

text= re.sub(replaceBR, "\n", item[1])

pageStories.append([item[0].strip(), text.strip(),item[4].strip()]) #.strip（）用来删除空白符

returnpageStories#加载并提取页面的内容，加入到列表中

defloadPage(self):#如果当前未看的页数少于2页，则加载新一页

if self.enable ==True:if len(self.stories) < 2:#获取新一页

pageStories =self.getPageItems(self.pageIndex)#将该页的段子存放到全局list中

ifpageStories:

self.stories.append(pageStories)#页码加1，下次读取下一页

self.pageIndex += 1

#每次敲回车打印一个段子

defgetOneStory(self,pageStories,page):#遍历一页的段子

for story inpageStories:#等待用户输入

input_v =input()#每当输入回车一次，判断一下是否要加载新页面

self.loadPage()#如果输入Q则程序结束

if input_v == "Q":

self.enable=Falsereturn

print(u"第%d页\t发布人：%s\t赞：%s\n%s" % (page, story[0], story[2],story[1]))#开始方法

defstart(self):print(u"正在读取糗事百科，按回车查看新段子，Q退出")#使变量为True，程序可以正常运行

self.enable =True#先加载一页内容

self.loadPage()#局部变量，控制当前读到2了第几页

nowPage =0whileself.enable:if len(self.stories) >0:#从全局list中获取一页段子

pageStories =self.stories[0]#当前读到的页数加1

nowPage += 1

#删除已经取出的元素

delself.stories[0]#输出该页的段子

self.getOneStory(pageStories,nowPage)

spider=QSBK()

spider.start()

weixin_39694174

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python大神写的代码_【python】抄写大神的糗事百科代码

importurllib.requestimporturllib.parseimportreimporttime#糗事百科爬虫类classQSBK:#初始化方法，定义一些变量def __init__(self):self.pageIndex= 1self.user_agent= 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHT...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。