看的第一本小说 怀旧一下 hhhhh
代码如下 ( 使用正则表达式进行匹配 )
#小说爬虫 《星辰变》
import re
import requests
url="http://www.xbiquge.la/5/5623/" #小说目录
txt=requests.get(url).content.decode("utf-8")
j=re.compile(r"<dd><a href='/5/5623/(.+?)' >(.+?)</a></dd>") #匹配正则
ml=j.findall(txt)
mlist=[(i[1],url+i[0]) for i in ml] #将章节和网址保存成列表mlist ,
#print(mlist)
with open("11.txt","w",encoding="utf-8") as f:
for i in mlist:
print("开始下载--->",i[0])
t1=requests.get(i[1]).content.decode("utf-8",errors="ignore") #忽略错误
zw1=re.compile(r'tent">(.+?)<p>') #正则匹配正文部分
zw=zw1.findall(t1)[0]
zw=zw.replace(" ","") #因为解码格式不同 将乱码替换掉
zw=zw.replace("<br />","")
zw=zw.replace("<script></script>","")
zw=zw.replace("readx();","")
f.write(i[0]+"\n\n\n")
f.write(zw+"\n\n\n")
print("下载完毕")