python爬虫获取小说根据正文调用函数传入章节地址列表_python爬虫之小说章节获取,聊斋志异小说完整版...

“写鬼写妖高人一等,刺贪刺虐入骨三分。”

没找到聊斋志异完整版的txt文档,那就把在线阅读的文章抓下来吧。

开发环境

python3.7

requests模块

lxml模块

获取分析

fced9f3a94f0

找到聊斋志异的小说网站。

通过查看源码与分析小说每一章的URL链接发现,构成每一章的URL链接其实是通过小说网站URL链接的前缀+每一章的章节属性得到。

#获取章节链接

for name0 in url2:

name = name0.xpath("./a/text()")[0]

urlhref = name0.xpath("./a/@href")[0]

finurl = "https://www.sbkk88.com" + urlhref

获取到小说每一章的URL链接后分析章节内容网页,发现是静态页面,直接通过requests.get()方法就获取到。

#解析,获取内容

response2 = requests.get(finurl,headers = headers).content.decode('gbk')

html = etree.HTML(response2)

cons = html.xpath("//*[@id='f_article']/p")

for one in cons:

essay = []

conss = one.xpath(".//text()")

for sentence in conss:

if sentence == "一":

pass

else:

essay.append(sentence)

最后将爬取到的内容写入.txt文本,就能得到一本完整的聊斋志异小说!

结果展示:

fced9f3a94f0

聊斋志异小说

现在就能阅读整本的聊斋志异白话文小说了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值