python 获取response括号里的内容_Python爬虫第一战爬取小说

最新推荐文章于 2024-04-21 13:49:18 发布

weixin_39637723

最新推荐文章于 2024-04-21 13:49:18 发布

阅读量626

点赞数 1

文章标签： python 获取response括号里的内容

前言：

本文章将通过分析爬虫的思想，再加以利用两个 Python 库，即 requests 库和 re 库，让你顺利入门爬虫，通过本篇文章，你将学会:

独立做出爬取小说的爬虫
利用Python取得所要信息
利用Python筛选出特定信息

还没有搭建好python环境的请看这里

https://zhuanlan.zhihu.com/p/264318820zhuanlan.zhihu.com

背景：

看小说的时候虽然能免费阅读小说内容，但是因为弹窗广告的存在，阅读体验不佳

作为一个资深小说控，我学会 Python 爬虫之前每天必做的事便是打开手机或者电脑，进入小说网站，然后再打开我喜欢看的小说，小说是免费的，但是俗话说便宜没好货，我们在享受便宜的同时，也在牺牲一部分，比如说我看小说的时候会 被广告弹框所干扰，这让我的阅读体验不佳，既然有了问题，那我们便想着去解决，所以我一开始的解决方式是给浏览器安装去广告插件，这么一做之后体验的确好了不少，但是如果是手机端，我则无法使用这个方法，并且去广告插件也不是万能的。那么，还有什么解决方式吗？ 答案是肯定的！

解决方式:

现在有请我们今天的主角登场，它就是大名鼎鼎的 Python！

你一定很好奇，Python 是怎么解决这个问题的吧？

且听我慢慢道来......

思路分析:

对症下药

症：看小说的时候会被弹框广告干扰

找到了症，那接下来自然是对症下药了，且再听我慢慢道来。既然广告对阅读有干扰，那么我们自然想
到把广告去除，关键是不能用广告去除插件，那怎么办呢？
这个问题问的好，其实我们可以换个角度思考问题
你看我们的目的是获得没有广告的阅读界面，这时候很多人想到的是直接把广告去除
的确如此，但是现在无法使用去广告插件，所以此路不通。
这时候不要轻言放弃，要记住条条大路通罗马。我们可以换个角度思考
既然你广告不走，那我小说文字就走呗，这不就实现广告与纯文字分离了吗？
通过以上分析，我们找到了药！

药：把小说文字内容从小说所在地方提取出来

所以

是时候对症下药了，那么这个药是怎么制成的呢？且再听我慢慢道来！

预备知识

说明：不了解没关系，本文附有相关链接供你学习，代码实战部分也会讲解基本用法

requests 库

如果把requests 库比作一个人，那么它的主要工作便是取货

库的安装方法：打开命令行，输入 pip install requests 然后等待安装完成，出现successfully说明安装成功。

这是相关链接

Python爬虫之requests库的使用 - 墨鱼菜鸡 - 博客园www.cnblogs.com

re 库

如果把re库比作一个人，那么它的主要工作便是从给定信息中提取出特定信息

这是相关链接

Python 正则表达式 | 菜鸟教程www.runoob.com

实战部分：

爬虫，说白了就是利用技术去获取位于网络上的信息，就像你要找一本书一样，你若想找到书，就得知道它的位置，在网络中，信息的位置被称为 URL

URL 标记着信息的位置，故此，我们要想获得想要的信息们需要知道信息的 URL，那么我们怎么获得 URL 的呢？凭空臆想自然是不行的咯！虽然可能成功，但成功概率非常低！

说到获取 URL 就不得不谈到 ’归纳推理‘这一方法，它与人类的发展息息相关，因为人类可以通过归纳，在大量的基本数据支持下，合理地归纳出某个事物的特点。

例如

通过观察人类的行走方式，可以归纳出人类具有直立行走的特点

那归纳推理在爬虫中是怎么应用的呢？

我们不妨回忆以下看小说的部分流程：

   1. 打开小说网站
   2.点击要看的书籍并进入章节目录
   3.点开具体章节开始小说正文的阅读

这是一个通用流程，下面我们来具体化流程

    1.打开笔趣阁（ http://www.xbiquge.la）
    2.点击小说《三寸人间》( http://www.xbiquge.la/10/10489/)并看到章节目录
    3.点击第一章 “我要减肥”（ http://www.xbiquge.la/10/10489/4535761.html ）开始阅读

你一定会想，这哪有体现归纳推理呢？

别急，且再听我慢慢道来，归纳推理是建立在样本足够多的基础上，上面我给的小说章节 URL 还不够多，所以我再给几个:

    第一章小说地址:http://www.xbiquge.la/10/10489/4535761.html
    第二章小说地址:http://www.xbiquge.la/10/10489/9683462.html
    第三章小说地址:http://www.xbiquge.la/10/10489/9687224.html

3 个或许不算多，但我相信以你的冰雪聪明，一定已经发现这 3 个地址的共性了吧？好，接下来让我们 求同存异

同：
http://www.xbiquge.la/10/10489/
异：
4535761.html
9683462.html
9687224.html

所以如果我们用 x 来代表小说章节 URL 的共性，y 代表不同点，z 代表小说章节完整 URL 那么应该有：

z=x+y

x 我们已经知道了，所以要求 z，当然是要去求 y，那么 y 是怎么求的呢？这就用到我们的 requests 库了，它在本文的爬虫中的作用是向某个地址发送请求（就像你用浏览器打开网页那样，只不过没有图形界面和一些动态元素),然后获得相关信息。

打个比方

requests是一个人，它具有取货的能力，如果你告诉它货物所在地址，它可以帮你去把货物取回来，取货物用到
的方法是 get 
或许你还不理解，没关系，下面有相应的解释

回到求解 y 的问题，求解 y 得知道它在哪里对吧？

那么 y 在哪里呢？

我们回忆一下看小说的第 2 步，即：

点击要看的书籍并进入章节目录

这一步骤中，如果我们点击章节目录中的任意章节，我们很快就能看到小说内容

故此

做出猜想：

小说章节这一货物的地址存放在小说目录这个仓库中

那怎么验证猜想的正确性呢？

当然是使用我们的 requests 库咯！

获取章节地址的思路:

通过requests这个人访问小说总目录这一大仓库，然后从仓库中取货，这样便得到小说章节地址这些货物

请看代码

#导入requests这个人，让他帮我们取货

仔细看我们便发现 y 隐藏在形如：

<dd><a href='/10/10489/4535761.html' >

的一段文本中，所以我们找到了y所在位置，验证前面的猜想是正确的！

接下来要做的便是把它揪出来，那怎么把它揪出来呢？这就轮到我们的re库登场了！

re库的简略介绍

re也是一个人。它的工作是审阅信息，而如果你要叫它帮你办事，你需要知道怎么和它沟通，它有
自己的语言，明白它的语言之后才能给它分配任务
下面简略介绍它的语言:
符号 . 对于我们而言是一个单纯的英文句号，但在re这个人的认知里，它代表着任意符号（除了换行符）
符号 * 对于我们而言是一个单纯的星号，但在re这个人的认知里，它代表着任意多个字符
例如 :
你好*
上面的三个字符对于re这个人而言，它的理解有：
你
你好
你好好
你好好好
......
这下子你明白了吧？
符号 () 对于我们而言是单纯的括号，而在re这个人的认知里，它的作用是吧 ()里面的内容包围起来，
下面会有实例介绍
注： (.*?) 这个表达式可以匹配任意文本，后面会多次涉及

请看编写正则表达式的代码:

#匹配形如 /10/10489/9683462.html 的内容的正则表达式

接下来是求解z的方法，即拼接小说具体章节URL

您瞧:

#定义一个列表来存储小说章节地址

下面是时候通过编写正则表达式来获取小说的内容和标题了，代码如下:

#以下是提取正文内容的正则表达式，是通过分析小说内容特点的源码来写的

最后，通过 requests

这个人拿着货物（小说章节）地址去提货，然后叫re这个审阅筛选人员从提取到的货物中筛选出所要信息并写入文件。

写入文件的方法

save_path

以下是爬取小说的完整代码

import

总结：

做出一个爬取小说的爬虫需要雇佣requests和re这两个人，前者负责提货，后者负责听你号令筛选货物，就这样，在这两个人以及你的冰雪聪明配合之下，你成功地做出了一个爬取小说的爬虫！

欢迎小伙伴们在评论区踊跃发言，成功的可以分享喜悦和心得，失败的可以寻求帮助，同时也欢迎各位指正我的不足之处，一起进步！