python爬虫小说代码示例-使用简单Python爬虫获取一个干净整洁的小说文件

本文介绍了如何使用Python爬虫从17k小说网抓取小说信息,包括编码识别、正则表达式提取数据、数据清洗及写入文件的详细步骤。通过示例代码,展示如何获取作品信息、章节标题和正文内容,并最终将数据保存到本地文件。
摘要由CSDN通过智能技术生成

打开小说所在界面,右击选择查看网页源代码

1.在头部能够看到'charset=utf-8'得知文件的编码为'uft-8'!,url=http://www.17k.com/list/2921315.html

12013a8847fd

头部.png

import urllib.request as req #导入urllib库,用于对url进行操作

webpage=req.urlopen(url) #打开网页并将网页源代码临时存储

file=webpage.read().decode('utf-8') #将网页源代码转码为网页使用的编码并读取

2.查看网页源代码的规律,标题是在'

'之间,章节信息是存在''之间,其他的信息同样是这样的规律

12013a8847fd

代码如下:

#根据网页源代码的特征,使用re库的正则表达式获取需要的数据,获取到的数据是一个列表

import re #导入re库

title=re.findall(r'

(.*?)
',file,re.S)

4、对

中进行数据清洗,代码如下

其余部分操作方法一致

#通re.findall()获取到的是一个列表,由网页源代码可知标题信息在第一个

lines=title[0]

#数据清洗

lines=li

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值