python爬虫实战-爬取励志名言并保存至本地(正则)

python爬虫实战-爬取励志名言并保存至本地(正则)

import urllib.parse
import urllib.request
import re

def handle_request(url,page=None):
	if page !=None:
		url=url+str(page)+'.html'
	headers={
		'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
	}
	request=urllib.request.Request(url=url,headers=headers)
	return request

def get_text(a_href):
	request=handle_request(a_href)
	text=urllib.request.urlopen(request).read().decode()
	pattern=re.compile(r'<div class="neirong">(.*?)</div>',re.S)
	let=pattern.findall(text)
	#清除内容里面的所有图片
	pat=re.compile(r'<img .*?>',re.S)
	text=pat.sub('',let[0])
	return(text)

def get_content(lt):
	for href_title in lt:
		a_href='http://www.yikexun.cn'+href_title[0]
		title=href_title[1]
		text=get_text(a_href)
		string='<h1>%s</h1>%s' % (title,text)
		with open('lizhi1.html','a',encoding='utf8')as fp:
			fp.write(string)

def parse_content(content):
	pattern=re.compile(r'<h3><a href="(.*?)"><b>(.*?)</b></a></h3>')
	#返回的lt是一个列表,列表每个元素都是一个元祖,元祖的第一个元素就是url地址,第二个元素是标题
	lt=pattern.findall(content)
	get_content(lt)

def main():
	# url='http://www.yikexun.cn/lizhi/qianming/list_50_2.html'
	url='http://www.yikexun.cn/lizhi/qianming/list_50_'
	start_page=int(input('请输入起始页码:'))
	end_page=int(input('请输入结束页码:'))
	for page in range(start_page,end_page+1):
		request=handle_request(url,page)
		content=urllib.request.urlopen(request).read().decode()
		parse_content(content)

if __name__ == '__main__':
	main()
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值