Python编程——爬小说《星辰变》

看的第一本小说 怀旧一下 hhhhh 

代码如下 ( 使用正则表达式进行匹配 ) 

#小说爬虫 《星辰变》

import re 
import requests
url="http://www.xbiquge.la/5/5623/"     #小说目录

txt=requests.get(url).content.decode("utf-8")
j=re.compile(r"<dd><a href='/5/5623/(.+?)' >(.+?)</a></dd>") #匹配正则
ml=j.findall(txt)
mlist=[(i[1],url+i[0]) for i in ml]    #将章节和网址保存成列表mlist , 
#print(mlist)

with  open("11.txt","w",encoding="utf-8") as f:
	for i in mlist:
		print("开始下载--->",i[0])    
		t1=requests.get(i[1]).content.decode("utf-8",errors="ignore")   #忽略错误
		zw1=re.compile(r'tent">(.+?)<p>')            #正则匹配正文部分
		zw=zw1.findall(t1)[0]
		zw=zw.replace("&nbsp;","")    #因为解码格式不同 将乱码替换掉
		zw=zw.replace("<br />","")
		zw=zw.replace("<script></script>","")
		zw=zw.replace("readx();","")
		f.write(i[0]+"\n\n\n")
		f.write(zw+"\n\n\n")
print("下载完毕") 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值