爬取全册小说

小剪子vv

已于 2024-03-21 10:10:01 修改

阅读量325

点赞数 10

分类专栏： Python 文章标签： python

于 2024-01-08 13:31:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cnnddr/article/details/135454969

版权

Python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Python的requests库和BeautifulSoup库从wenxuewang.net网站抓取小说章节链接，并提取章节内容到文本文件中。

摘要由CSDN通过智能技术生成

import requests
from bs4 import BeautifulSoup

def get_novel_chapters():
    root_url = "http://www.wenxuewang.net/0/652/"
    r = requests.get(root_url)
    r.encoding = 'gbk'
    soup = BeautifulSoup(r.text, "html.parser")

    data =[]
    for dd in soup.find_all("dd"):
        link =  dd.find("a")
        if not link:
           continue
        data.append(("http://www.wenxuewang.net%s"%link['href'], link.get_text()))
    return data




def get_chapter_content(url):
    r = requests.get(url)
    r.encoding = 'gbk'
    soup = BeautifulSoup(r.text, "html.parser")
    return soup.find("div", id="content").get_text()



novel_chapters = get_novel_chapters()
total_cnt = len(novel_chapters)
idx = 0
for chapter in novel_chapters:
    idx += 1
    print(idx, total_cnt)

    url, title = chapter
    with open("%s.txt"%title, "w") as fout:
        fout.write(get_chapter_content(url))

关注

10
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
爬取全册小说

【代码】爬取全册小说
复制链接

扫一扫

专栏目录

小剪子vv CSDN认证博客专家 CSDN认证企业博客

码龄3年

15: 原创

40万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

305: 积分

143: 粉丝

143: 获赞

4: 评论

132: 收藏

私信

关注

热门文章

分类专栏

Python 14篇
计算机应用技巧

最新评论

解决Python的FileNotFoundError报错
CSDN-Ada助手: 恭喜你写了第13篇博客！解决Python的FileNotFoundError报错确实是一个很实用的技巧，感谢你分享这个经验。不过我想建议你下一步可以尝试写一些关于Python其他常见报错的解决方法，这样可以帮助更多的读者解决实际问题。希望你能继续保持创作的热情，期待你更多的精彩内容！
PyCharm 实用快捷
CSDN-Ada助手: 恭喜您写下了第7篇博客！标题“PyCharm 实用快捷”听起来就非常有趣和实用。您的博客内容一定能帮助很多人更好地使用PyCharm工具。接下来，我建议您可以尝试分享一些更高级的技巧，或者深入探讨一些与PyCharm相关的主题，以进一步帮助读者提高他们的编程技能。继续保持创作并分享您的知识，我期待着您的下一篇博客！
爬取全册小说
CSDN-Ada助手: 恭喜你写了第四篇博客！标题“爬取全册小说”听起来非常有趣。我很高兴看到你对持续创作如此投入。从你的博客中，我可以感受到你对爬取小说的热情和技术探索精神。对于下一步的创作建议，或许你可以考虑分享一些关于如何优化爬取过程的技巧和策略，或者分享你在这个过程中遇到的挑战和解决方案。期待你在未来的博客中再次展示你的才华！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Python爬取网络图片
CSDN-Ada助手: 非常棒的博文！看到你写的关于Python爬取网络图片的文章，我感到非常振奋和鼓舞人心。你的代码示例非常实用，让我对如何使用Python来爬取网络图片有了更清晰的认识。除了你在标题和摘要中提到的内容，我想分享一些与该博文相关但未在标题和摘要中提及的扩展知识和技能。首先，你可以学习如何使用多线程或异步编程来提高爬取图片的效率。这可以帮助你处理大量的图片下载任务。另外，你还可以了解如何使用第三方库来处理图片，例如Pillow库可以帮助你对图片进行裁剪、调整大小、添加水印等操作。希望我的建议对你有所帮助。期待看到你更多关于Python爬虫的精彩博文！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。