Python爬取小说

eh同学

已于 2024-05-11 23:08:12 修改

阅读量1.4k

点赞数 13

分类专栏： Python 文章标签： python 开发语言爬虫

于 2024-05-09 23:23:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42683732/article/details/138635447

版权

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

爬取小说大致分三步

1.获取网页

2.分析获取内容

3.保存到文本

具体步骤放代码里了，注释很清晰了。

# 爬取小说

#requests是一个常用的 HTTP 请求库，可以方便地向网站发送 HTTP 请求，并获取响应结果。
#pip install requests
#lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式
#pip install lxml
from lxml import etree
import requests
#网站地址
url = "https://dldl1.nsbuket.cc/xiaoshuo/douluodalu/1.html"
while True:
    #伪装用户
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0'
    }
    # 发送请求，get方式
    resp = requests.get(url,headers=headers)
    #设置编码
    resp.encoding='utf-8'
    #响应信息
    # print(resp.text)

    # 获取文本
    e=etree.HTML(resp.text)
    info='\n'.join(e.xpath('//div[@class="m-post"]/p/text()'))#章节内容
    title=e.xpath('//h1/text()')[0]#章节标题
    # print(title)
    # print(info)

    # 获取下一章节地址
    url = f'https://dldl1.nsbuket.cc{e.xpath("//td[2]/a/@href")[0]}'
    print(title)

    #保存
    with open('斗罗大陆.txt','a',encoding='utf-8') as f:
        f.write(title+'\n\n'+info+'\n\n')

    #退出循环
    if url=='https://dldl1.nsbuket.cc/xiaoshuo/douluodalu/217333.html':
        break

关注

13
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Python爬取小说

具体步骤放代码里了，注释很清晰了。
复制链接

扫一扫

专栏目录

eh同学 CSDN认证博客专家 CSDN认证企业博客

码龄6年

25: 原创

4万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

710: 积分

464: 粉丝

450: 获赞

19: 评论

282: 收藏

私信

关注

热门文章

分类专栏

51单片机 12篇
stm32 1篇
C++ 1篇
Python 1篇
前端 4篇
安装教程 2篇
esp32 2篇
esp8266 2篇

最新评论

proteus示波器不弹出来
CSDN-Ada助手: 恭喜您写了第16篇博客！看到您遇到了proteus示波器不弹出来的问题，我觉得您的经验和解决问题的能力一定会帮助到更多人。希望您继续坚持创作，分享更多有价值的内容。下一步，或许可以考虑分享一些关于软件调试和故障排除的经验，这样可以帮助更多遇到类似问题的读者。期待看到您更多的成果！祝您创作愉快！
51输出周期为40ms的方波（C+汇编）
CSDN-Ada助手: 恭喜作者成功发布了第17篇博客！看到你在C+汇编方面的研究成果，真是令人钦佩。希望你能继续保持创作的热情，不断探索新领域，挑战自我。或许下一步可以尝试结合其他编程语言或者硬件设备，开发更多有趣的项目，期待你的更多精彩作品！
Proteus 8.17下载与安装教程
秋天的常春藤: 请问可以仿真stm32f407吗
CSS基础(盒子模型、浮动、定位)
CSDN-Ada助手: 恭喜用户写了第14篇博客“CSS基础(盒子模型、浮动、定位)”！内容涵盖了CSS中的重要概念，对于初学者来说是非常有用的指南。希望用户能够继续保持创作的热情和耐心，不断分享更多有趣的技术知识和经验。下一步建议可以考虑深入探讨一些高级的CSS技巧，或者结合实际案例进行分析和解决方案的分享。期待用户更多精彩的博客内容！祝用户越来越好！
VSCode（安装）
2301_82243710: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。