爬虫|菜鸟的学习之路——爬取一本小说

最新推荐文章于 2024-07-10 17:31:12 发布

逆流而上jiao

最新推荐文章于 2024-07-10 17:31:12 发布

阅读量2.7w

点赞数 28

文章标签： Python 爬虫爬取小说编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sum_12/article/details/80993408

版权

爬虫初学菜鸟专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言：本次爬取的是全书网的某一本小说并以.TXT格式下载到本地。

工具：python3 和 pycharm

Python库：urllib.request 和 re

注意：python是用3以上的版本，库可以在Windows命令提示符里输入pip install+库名

第一步：分析网页

1.首先我们要了解要爬取网站的页面，查看网页源代码。

2.其次要想好代码的步骤和思路。

#获取主页面源代码

#获取章节超链接

#获取小说内容

#下载小说

（全书网某本小说界面）

第二步：开始编程

1.定义库。

import urllib.request

import re

2.定义一个函数egtNovlContent()。

#获取主页面源代码

html = urllib.request.urlopen("http://www.quanshuwang.com/book/9/9055").read()

#解码

html = html.decode("gbk")

#获取章节超链接

urls = re.findall(req, html)

#遍历每章（章节网址和名字）

for i in urls:

    novel_url = i[0]

    novel_name = i[1]

    chapt = urllib.request.urlopen(novel_url).read()

    chapt_html = chapt.decode("gbk")

#获取小说内容

    reg = '</script>    (.*?)<script type="text/javascript">'

#多行匹配

    reg = re.compile(reg, re.S)

    chapt_content = re.findall(reg, chapt_html)

#删掉多余的字符串（替换）

    chapt_content = chapt_content[0].replace("    ","")

    chapt_content = chapt_content.replace("<br />", "")

#下载小说

    print("正在下载：%s"%novel_name)

    f = open('{}.txt'.format(novel_name),"w")

    f.write(chapt_content)

    f.close()

#调用函数

getNovelContent()

第三步：运行实践

（pycharm运行）

（本地查看，爬取成功）

源代码如下：

结束语：第一次写博客，写的很糙，望包含，我是初学者，菜鸟一枚，多多学习。

——sum

逆流而上jiao

关注

28
点赞
踩
132

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。