python学习（二）爬虫——爬取网站小说并保存为txt文件（一）

最新推荐文章于 2024-08-14 11:00:39 发布

置顶

渔父歌

最新推荐文章于 2024-08-14 11:00:39 发布

阅读量1.3w

点赞数 8

分类专栏： python 学习笔记 python爬虫入门文章标签： python爬虫 python学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40695895/article/details/79606106

版权

本文介绍了使用Python爬虫获取网络小说页面，剔除源码中的非文字内容，通过BeautifulSoup解析HTML获取章节，最后将章节内容写入TXT文件的步骤。详细讲解了如何设置请求头、解析HTML以及使用os模块操作文件。

摘要由CSDN通过智能技术生成

一：获取小说页面

所需模块

import requests #获取网络连接

目标小说网站：http://m.50zw.la

获取页面

r = requests.get('http://m.50zw.la',params=re_header)

requests的高级特性

这里的re_header是HTTP请求头，用来模仿浏览器访问，避免被网站发现
获取方法如下
1，用chrome打开小说网站
2，按F12进入开发者模式或者鼠标右键->检查进入开发者模式
3，点击network
4，如图：
示例1

注：request-header里的并不需要全部复制，只要一部分就可以，具体的自己试一试

然后我们获取到的网页就会保存在r里面
示例2

这里还要设置编码，requests默认为utf-8，我们的目标网站的编码是gbk

最低0.47元/天解锁文章

关注

8
点赞
踩
62

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。