python爬虫小说下载到txt文档_python 爬取网络小说清洗并下载至txt文件

最新推荐文章于 2024-08-08 15:21:00 发布

weixin_39823676

最新推荐文章于 2024-08-08 15:21:00 发布

阅读量854

点赞数 1

文章标签： python爬虫小说下载到txt文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39823676/article/details/111446159

版权

本文介绍了Python爬虫的基础知识，并通过实例详细讲解如何使用正则表达式爬取并清洗网络小说，最后将其保存为TXT文件。内容包括爬虫原理、网页分析、正则表达式使用、数据清洗和文件存储。

摘要由CSDN通过智能技术生成

什么是爬虫

网络爬虫，也叫网络蜘蛛(spider)，是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。

爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人只对网站的一部分进行索引，或完全不作处理。

互联网上的页面极多，即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期，搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多，能够即刻给出高质量结果。

爬虫还可以验证超链接和HTML代码，用于网络抓取。

环境：pycharm2017、python3.7

对于初学者来说，爬取小说是最简单的应用，而对于没有任何语法基础的人来说，清晰的逻辑往往比大段的代码更重要。

整个过程分为以下几步：

1.确定爬取目标(网页，前段页面)

首先要明确爬虫的原理，是从网页源代码进行进行数据爬取，本次是以http://www.92kshu.cc/69509/为例，进行小说爬取

2.分析代码，进行数据爬取

主要用到的是python的正则表达式，对想要爬取数据进行选择

title = re.findall(r‘‘,html)[0]

在此语句中，用的是re库，对

最低0.47元/天解锁文章

weixin_39823676

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。