python3 爬虫内涵段子

import re
from urllib import request
class Sprder:
def __init__(self):
self.page=1
self.switch=True
def loadPage(self):
""""
下载页面
"""
url="http://www.neihan8.com/article/list_5_"+str(self.page)+".html"
user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident / 5.0'
headers = {'User-Agent': user_agent}
request1=request.Request(url,headers=headers)
response=request.urlopen(request1)
html=response.read().decode("gbk")
pattern=re.compile(r'<div\sclass="f18 mb20">(.*?)</div>', re.S)
content_list=pattern.findall(html)

self.dealPage(content_list)

def dealPage(self,content_list):
"""
处理每页段子
"""
for item in content_list:
item=item.replace("<p>","").replace("</p>","").replace("<br>","").replace("<br />","").replace("&ldquo;","")
self.writePage(item)

def writePage(self,item):
"""
把段子逐个写入文件
"""
with open("段子.txt","a") as f:
f.write(item)
def startWork(self):
"""
控制爬虫运行

"""
while self.switch:
self.loadPage()
command=str(input("如果继续按回车(退出输入quit)"))
if command=="quit":
self.switch=False

self.page+=1
if __name__ == '__main__':
duanziSpider=Sprder()
# duanziSpider.loadPage()
duanziSpider.startWork()

转载于:https://www.cnblogs.com/Bighua123/p/8418968.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值