爬虫项目1——网络小说爬取

最新推荐文章于 2021-09-22 11:20:00 发布

呆白

最新推荐文章于 2021-09-22 11:20:00 发布

阅读量460

点赞数

分类专栏： python基础

本文链接：https://blog.csdn.net/qq_41548574/article/details/99683593

版权

python基础专栏收录该内容

8 篇文章 0 订阅

订阅专栏

项目目的：爬取斗罗大陆小说的所有章节并保存为txt文件

具体步骤

获得小说每一个章节的超链接
1. 使用requests获取网页源代码
2. 使用BeautifulSoup对网页源代码进行分析
3. 使用re正则表达式匹配得到章节的超链接
获取文本
1. 分析网页，获得合理的网页获取步骤
2. 然后使用合理的方式获取文字
保存文本
1. 将文字保存在文本中

第一步;观察小说目录网页源代码，从中获得提取每一个章节超链接的方式

url = 'http://www.quanshuwang.com/book/44/44683'

这是目标网页的链接

从图片中可以看出，每一个章节的链接以及章节的名称都在<li><a>标签下，其他与章节链接不想管的信息都不是保存在此标签下

那么可以使用正则表达式匹配一行字符串，之后再使用 re.findall（reg）获取所有相似的链接

reg = r'<li><a href="(.*?)" title=".*?">(.*?)</a></li>'

urls = re.findall(reg,html)

此时获得的是一个列表，其中每一个元素都是一个元祖，由超链接以及对应的章节名称组成

此时已经获得每一个章节的超链接

那么下面需要做的就是根据已有的超链接跟踪获取其文本信息

下面是章节的源代码

避免重复造轮子，我们可以创建一个函数，要求是传入一个url可以获得url对应的文本并保存在文件中

def getText(url): # 获得章节文本的函数
    html = requests.get(url) # 获得html
    html.encoding = html.apparent_encoding # 修改编码，当不知道网站的编码格式时可以使用这个方式
    reg =  '&nbsp;&nbsp;&nbsp;&nbsp;(.+)' # 正则表达式的式子
    reg = re.compile(reg) # 我看攻略说使用这个可以加快匹配速度
    text = re.findall(reg,html.text) # 匹配
            
    # 这个操作是为了保存文件
    # 由于匹配的文本中含有不想要的字符串，因此通过replace方法将字符串替换
    with open('斗罗大陆001.txt','a') as f:
        
        for t in text:
            if text[-1] == t:
                t = t.replace('<script type="text/javascript">style6();</script></div>','')
                f.write(t)
                f.write('\n')
            else:
                t = t.replace('<br />',' ')
                f.write(t)

呆白

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫项目1——网络小说爬取

项目目的：爬取斗罗大陆小说的所有章节并保存为txt文件具体步骤获得小说每一个章节的超链接使用requests获取网页源代码使用BeautifulSoup对网页源代码进行分析使用re正则表达式匹配得到章节的超链接获取文本分析网页，获得合理的网页获取步骤然后使用合理的方式获取文字保存文本将文字保存在文本中第一步;观察小说目录网页源...
复制链接

扫一扫