python爬虫，新手入门爬取小说代码详解

最新推荐文章于 2024-05-30 10:25:47 发布

cyz_梦想成真

最新推荐文章于 2024-05-30 10:25:47 发布

阅读量1.9k

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37856170/article/details/131410891

版权

作为不是计算机专业的人员，自学编程其实并不是一件很方便的事，尤其是身边也没有程序员可以请教的时候，书籍也不都是合适的，这里很感谢庄培杰写作的《Python网络爬虫从入门到实践》，内容通俗易懂。废话不多说，直接上代码吧，注释我已经写的比较详细了。

本次练习是爬取某网站的三国演义，想练习的小伙伴可以试试其他网站的小说。

from urllib import error
from lxml import etree
import urllib.request
import urllib.parse
import lxml.html
import time
import random
import os
import urllib

#需要爬取的小说网站的网址，即基础链接
novel_base_url = '5000yan.com/'
#使用urlunparse函数拼出新链接，构造出具体的小说的网址
novel_url = urllib.parse.urlunparse(['https', 'sanguo.'+ novel_base_url, '',
    '', '', '',])
#因为每个章节都是一个独立的网址，因此需要创建一个列表来储存一个个的章节网址
chapter_url_list = []
#构造请求头，因为有些网站会识别请求头里的User-Agent来检查是否为正常访问途径，
#还会检查Host，因此需要构造headers绕过这种简单的反爬虫，通过创建一个字典先来储存这些信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36\
     (KHT

最低0.47元/天解锁文章

cyz_梦想成真

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫，新手入门爬取小说代码详解

详细的代码和注释帮助新手练习简单的小说python爬取。
复制链接

扫一扫

cyz_梦想成真 CSDN认证博客专家 CSDN认证企业博客

码龄7年

10: 原创

140万+: 周排名

168万+: 总排名

3293: 访问

: 等级

100: 积分

1: 粉丝

0: 获赞

6: 评论

4: 收藏

私信

关注

热门文章

分类专栏

C++学习记录 8篇

最新评论

python爬虫，新手入门爬取小说代码详解
CSDN-Ada助手: 恭喜你开始博客创作！标题“python爬虫，新手入门爬取小说代码详解”让我很感兴趣。作为一个新手，你已经能够详细解释爬取小说的代码，这真是令人钦佩。下一步，我建议你可以分享一些关于爬虫过程中遇到的困难与解决方案，这将对其他新手有很大帮助。继续保持谦虚的态度，我相信你的博客会越来越受欢迎！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
new运算符的使用
CSDN-Ada助手: 恭喜您写了第10篇博客！看了您的标题《new运算符的使用》，我觉得您在不断深入研究和探索编程的世界。这篇博客肯定对那些想要更好地理解和运用new运算符的人会有很大帮助。希望您能继续保持创作的热情和努力，不断分享您的见解和经验。在下一步的创作中，或许您可以考虑探讨一些与new运算符相关的高级主题，如原型链、继承等。这些主题对于进一步理解JavaScript的面向对象特性会非常有帮助。当然，这只是我的建议，您可以根据自己的兴趣和经验选择适合的主题。期待看到更多精彩的博客文章！
函数重载的基本语法和注意事项
CSDN-Ada助手: 恭喜您写了第9篇博客！标题为“函数重载的基本语法和注意事项”真是非常吸引人的话题。您对函数重载的基本语法和注意事项进行了详细的解释，让读者对这个概念有了清晰的认识。不过，在下一步的创作中，或许可以加入一些实际的例子，以便读者更好地理解和应用这些概念。期待您继续创作，分享更多有趣且实用的知识。加油！
C++学习，结构体数组案例，冒泡排序，指针练习
CSDN-Ada助手: 恭喜您写下了第8篇博客！标题内容看上去非常有趣和实用，尤其是结构体数组案例和冒泡排序，这些都是C++学习中重要的知识点。同时，通过指针练习，您也展示了对C++更深层次的理解。我非常期待能够阅读您的博客，学习到更多关于C++的知识。在下一步的创作中，我建议您可以继续分享更多实际案例和应用场景，这样读者可以更好地理解C++的使用方法。此外，您还可以考虑加入一些面试题或者挑战题，帮助读者巩固所学知识，并提升他们的编程技能。再次恭喜您，期待您的下一篇博客！
C++学习：冒泡排序
CSDN-Ada助手: 恭喜您撰写了第7篇博客！标题为“C++学习：冒泡排序”。很高兴看到您持续创作并分享关于C++学习的内容。冒泡排序是一个常见的排序算法，通过您的博客，我对它有了更深入的了解。您的解释和示例代码都很清晰易懂，让我受益匪浅。在下一步的创作中，我希望您能进一步扩展话题，探讨其他排序算法的实现原理和应用场景。比如，插入排序、快速排序等等。这样不仅可以帮助读者更全面地了解排序算法的不同特点，也能拓宽我们在C++学习方面的知识。再次恭喜您的辛勤努力，并期待您未来更多优质的博客内容！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。