python爬虫小说代码示例-使用简单Python爬虫获取一个干净整洁的小说文件

最新推荐文章于 2024-06-24 18:45:00 发布

weixin_37988176

最新推荐文章于 2024-06-24 18:45:00 发布

阅读量1.4k

点赞数

本文介绍了如何使用Python爬虫从17k小说网抓取小说信息，包括编码识别、正则表达式提取数据、数据清洗及写入文件的详细步骤。通过示例代码，展示如何获取作品信息、章节标题和正文内容，并最终将数据保存到本地文件。

摘要由CSDN通过智能技术生成

打开小说所在界面，右击选择查看网页源代码

1.在头部能够看到'charset=utf-8'得知文件的编码为'uft-8'!，url=http://www.17k.com/list/2921315.html

12013a8847fd

头部.png

import urllib.request as req #导入urllib库,用于对url进行操作

webpage=req.urlopen(url) #打开网页并将网页源代码临时存储

file=webpage.read().decode('utf-8') #将网页源代码转码为网页使用的编码并读取

2.查看网页源代码的规律，标题是在'

'之间，章节信息是存在''之间,其他的信息同样是这样的规律

12013a8847fd

代码如下：

#根据网页源代码的特征，使用re库的正则表达式获取需要的数据，获取到的数据是一个列表

import re #导入re库

title=re.findall(r'

(.*?)

',file,re.S)

4、对

中进行数据清洗,代码如下

其余部分操作方法一致

#通re.findall()获取到的是一个列表,由网页源代码可知标题信息在第一个

中

lines=title[0]

#数据清洗

lines=li

最低0.47元/天解锁文章

weixin_37988176

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫小说代码示例-使用简单Python爬虫获取一个干净整洁的小说文件

打开小说所在界面，右击选择查看网页源代码1.在头部能够看到'charset=utf-8'得知文件的编码为'uft-8'!，url=http://www.17k.com/list/2921315.html头部.pngimport urllib.request as req #导入urllib库,用于对url进行操作webpage=req.urlo...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。