打开小说所在界面,右击选择查看网页源代码
1.在头部能够看到'charset=utf-8'得知文件的编码为'uft-8'!,url=http://www.17k.com/list/2921315.html
头部.png
import urllib.request as req #导入urllib库,用于对url进行操作
webpage=req.urlopen(url) #打开网页并将网页源代码临时存储
file=webpage.read().decode('utf-8') #将网页源代码转码为网页使用的编码并读取
2.查看网页源代码的规律,标题是在'
'之间,章节信息是存在''之间,其他的信息同样是这样的规律代码如下:
#根据网页源代码的特征,使用re库的正则表达式获取需要的数据,获取到的数据是一个列表
import re #导入re库
title=re.findall(r'
(.*?)
',file,re.S)
4、对
中进行数据清洗,代码如下其余部分操作方法一致
#通re.findall()获取到的是一个列表,由网页源代码可知标题信息在第一个
中lines=title[0]
#数据清洗
lines=li