前后端分离有什么了不起，手把手教你用 Python 爬下来！

Python老猿

已于 2024-01-24 21:14:17 修改

阅读量288

点赞数 1

文章标签： python javascript 前端 Python入门数据分析

于 2023-06-06 17:52:26 首次发布

本文链接：https://blog.csdn.net/DEVELOPERAA/article/details/131073059

版权

本文一个详细的爬虫进阶教程，里面包含了很详细的思考和试错过程，如果你对学爬虫是认真的，建议认真看。

我们要抓取下面这个网站上的所有图书列表：

https://www.epubit.com/books

1) 探索研究

创建一个新的 python 文件，写入如下代码：

import requests
url = 'https://www.epubit.com/books'
res = requests.get(url)
print(res.text)

运行发现打印结果如下：

这里面根本没有图书的信息。但使用浏览器检查器可以看到图书的信息：

我们碰到了一个基于前后端分离的网站，或者说一个用 JavaScript 获取数据的网站。这种网站的数据流程是这样的：

初次请求只返回了网页的基本框架，并没有数据。就是前面截图看到那样。
但网页的基本框架中包含 JavaScript 的代码，这段代码会再发起一次或者多次请求获取数据。我们称为 后续请求。

为了抓取这样的网站，有两个办法：

分析出后续请求的地址和参数，写代码发起同样的后续请求。
使用模拟浏览器技术，比如 selenium。这种技术可以自动发起后续请求获取数据。

2) 分析后续请求

打开谷歌浏览器的检查器，按图中的指示操作：

点击 Network，这里可以查看浏览器发送的所有网络请求。
选 XHR，查看浏览器用 JavaScript 发送的请求。
下面可以看到很多请求。我们要一个个看过去找到包含商品列表的请求。

再来理解一下浏览器打开一个网页的过程，一般并不是一个请求返回了所有的内容，而是包含多个步骤：

第一个请求获得 HTML 文件，里面可能包含文字，数据，图片的地址，样式表地址等。HTML 文件中并没有直接包含图片。
浏览器根据 HTML 中的链接，再次发送请求，读取图片，样式表，基于 JavaScript 的数据等。

所以我们看到有这么不同类型的请求：XHR, JS，CSS，Img，Font, Doc 等。

我们爬取的网站发送了很多个 XHR 请求，分别用来请求图书列表，网页的菜单，广告信息，页脚信息等。我们要从这些请求中找出图书的请求。

具体操作步骤如图：

在左边选中请求
在右边选择 Response
下面可以看到这个请求返回的数据，从数据可以判断是否包含图书信息。

Javascript 请求返回的格式通常是 JSON 格式，这是一种 JavaScript 的数据格式，里面包含用冒号隔开的一对对数据，比较容易看懂。JSON 很像 Python 中的字典。

在众多的请求中，可以根据请求的名字大致判断，提高效率。比如上图中 getUBookList 看起来就像是获取图书列表。点开查看，返回的果然是图书列表。

请记住这个链接的地址和格式，后面要用到：

https://www.epubit.com/pubcloud/content/front/portal/getUbookList?page=1&row=20&=&startPrice=&endPrice=&tagId= 分析一下，可以看到：

网址是：https://www.epubit.com/pubcloud/content/front/portal/getUbookList
page=1 表示第 1 页，我们可以依次传入 2，3，4 等等。
row=20 表示每一页有 20 本书
startPrice 和 endPrice 表示价格条件，他们的值都是空，表示不设定价格限制。

3) 使用 postman 测试猜想

为了验证这个设想打开谷歌浏览器，在地址栏中输入以下网址：

https://www.epubit.com/pubcloud/content/front/portal/getUbookList?page=1&row=20&=&startPrice=&endPrice=&tagId=

可是得到了如下的返回结果：

{
    "code": "-7",
    "data": null,
    "msg": "系统临时开小差，请稍后再试~",
    "success": false
}

这并不是系统出了问题，而是系统检测到我们是非正常的请求，拒绝给我们返回数据。

这说明除了发送这个 URL，还需要给服务器传送额外的信息，这些信息叫做 Header，翻译成中文是请求头的意思。

在下图中可以看到正常的请求中包含了多个请求头：

选中要查看的请求
在右边选 Headers
往下翻，可以看到 Request Headers，下面就是一项项数据：
- Accept: application/json, text/plain, /
- Accept-Encoding:gzip, deflate, br
- …

为了让服务器正常处理请求，我们要模拟正常的请求，也添加相应的 header。如果给的 Header 也都一样，服务器根本不可能识别出我们是爬虫。后面我们会学习如何在发送请求时添加 header。

但通常服务器并不会检查所有的 Header，可能只要添加一两个关键 Header 就可以骗服务器给我们数据了。但我们要一个个测试那些 Header 是必须的。

在浏览器中无法添加 Header，为了发送带 Header 的 HTTP 请求，我们要使用另一个软件叫做 Postman。这是一个 API 开发者和爬虫工程师最常使用的工具之一。

首先在 postman 的官网下载：www.postman.com。根据指示一步步安装软件，中间没有额外的设置。

打开 postman 后可以看到如下界面：

在最上面点击加号，可以添加一个新的请求
中间填写请求的 URL
点 Headers 进入 Headers 的设置界面，添加 Header。

这些 Header 的名字和值可以在检查器中复制过来。如果自己拼写，注意千万不要写错。

我们来了解一下几个常见的 header:

User-Agent: 这个 Header 表示请求者是谁，一般是一个包括详细版本信息的浏览器的名字，比如：Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36

如果爬虫不添加这个 Header，服务器一下就能识别出这是不正常请求，可以予以拒绝。当然，是否拒绝取决于程序员的代码逻辑。
Cookie: 如果一个网站需要登录，登录的信息就保存在 Cookie 中。服务器通过这个 Header 判定是否登陆了，登陆的是谁。

假设我们要自动在京东商城下单，我们可以先人工登录，复制 Cookie 的值，用 Python 发送请求并包含这个 Cookie，这样服务器就认为我们已经登陆过了，允许我们下单或做其他操作。如果在程序中加上计时的功能，指定具体下单的时间点，这就是秒杀程序。这是爬取需要登录的网站的一种常用方法。
Accept：指浏览器接受什么格式的数据，比如 application/json, text/plain, / 是指接受 JSON，文本数据，或者任何数据。
Origin-Domain: 是指请求者来自那个域名，这个例子中是：www.epubit.com

关于更多的 HTTP 的 Header，可以在网上搜索 HTTP Headers 学习。

我一个个添加常用的 Header，但服务器一直不返回数据，直到添加了 Origin-Domain 这个 Header。这说明这个 Header 是必备条件。

网页的后台程序有可能不检查 Header，也有可能检查一个 Header，也有可能检查多个 Header，这都需要我们尝试才能知道。

既然 Origin-Domain 是关键，也许后台程序只检查这一个 Header，我们通过左边的选择框去掉其他的 Header，只保留 Origin-Domain，请求仍然成功，这说明后台只检查了这一个 Header:

然后修改地址栏中的 page 参数，获取其他的页，比如截图中修改成了 3，再发送请求，发现服务器返回了新的数据（其他的 20 本书）。这样我们的请求过程就成功了。

4) 写抓取程序

开发爬虫，主要的时间是分析，一旦分析清楚了，爬取代码并不复杂：

import requests

def get_page(page=1):
    '''抓取指定页的数据，默认是第1页'''
    # 使用page动态拼接URL
    url = f'https://www.epubit.com/pubcloud/content/front/portal/getUbookList?page={page}&row=20&=&startPrice=&endPrice=&tagId='
    headers = {'Origin-Domain': 'www.epubit.com'}
    # 请求的时候同时传入headers
    res = requests.get(url, headers=headers) 
    print(res.text)

get_page(5)

这里我们测试了抓取第 5 页的数据，比对打印出的 JSON 数据和网页上的第 5 页数据，结果是匹配的。

现在我们去分析 JSON 的数据结构，再来完善这个程序。

5) 分析 JSON 数据

JSON 就像 Python 中的字典，用大括号存放数据，用冒号分割键和值。下面是省略的 JSON 数据：

{
    "code": "0",
    "data": {
        "current": 1, //第一页
        "pages": 144, //一共几页
        "records": [  //很多本书的信息放在方括号中
            {
                "authors": "[美] 史蒂芬·普拉达（Stephen Prata）",  //作者
                "code": "UB7209840d845c9", //代码
                "collectCount": 416, //喜欢数
                "commentCount": 64, //评论数
                "discountPrice": 0, //折扣价
                "downebookFlag": "N",
                "fileType": "",
                ...
            },
            {
                "authors": "笨叔",
                "code": "UB7263761464b35",
                "collectCount": 21,
                "commentCount": 3,
                "discountPrice": 0,
                "downebookFlag": "N",
                "fileType": "",
                ...
            },
            ...
        ],
        "size": 20,
        "total": 2871
    },
    "msg": "成功",
    "success": true
}

我们来学习一下这个 JSON 格式：

最外面是一个大括号，里面包含了 code, data, msg, success 四块信息。这个格式是开发这个网页的程序员自己设计的，不同的网页可能不同。
其中 code, msg 和 sucess 表示请求的状态码，请求返回的提示，请求是否成功。而真正的数据都在 data 中。
data 的冒号后面是一个大括号，表示一个数据对象。里面包含了当前页数 (current)，总页数 (pages)，书的信息 (records) 等。
records 表示很多本书，所以它用一个方括号表示，方括号里面又有很多大括号包起来的数据对象，每个大括号表示一本书。

{
    "authors": "[美] 史蒂芬·普拉达（Stephen Prata）", //书名
    "code": "UB7209840d845c9", //代码
    "collectCount": 416, //喜欢数
    "commentCount": 64,  //评论数
    "discountPrice": 0,  //折扣0，表示没有折扣
    ...
    "forSaleCount": 3,  //在售数量
    ...
    "logo": "https://cdn.ptpress.cn/pubcloud/bookImg/A20190961/20200701F892C57D.jpg",
    "name": "C++ Primer Plus 第6版 中文版", //书名
    ...
    "price": 100.30,  //价格
    ...
}

每本书的信息有很多个字段，这里省略掉了很多字段，给重要的信息添加了注释。

6) 完成程序

现在来完善上面的程序，从 JSON 中解析出我们要的数据，为了简化，我们只抓取：书名，作者，编号和价格。

程序框架：

import requests
import json
import time 
class Book:
    # --省略--
def get_page(page=1):
    # --省略--
    books = parse_book(res.text)
    return books
def parse_book(json_text):
    #--省略--

all_books = []
for i in range(1, 10):
    print(f'======抓取第{i}页======')
    books = get_page(i)
    for b in books:
        print(b)
    all_books.extend(books)
    print('抓完一页，休息5秒钟...')
    time.sleep(5)

定义了 Book 类来表示一本书
添加了 parse_book 函数负责解析数据，返回包含当前页的 20 本书的 list
最下面使用 for 循环抓取数据，并放到一个大的列表中，range 中添加要抓取的页数。通过前面的分析可以知道一共有几页。
抓取完一页后，一定要 sleep 几秒，一是防止给网站带来太大压力，二是防止网站会封锁你的 IP，是为他好，也是为了自己好。
把抓来的信息保存到文件中的代码，请自行完成。

下面来看看，被省略掉的部分：

Book 类：

class Book:
    def __init__(self, name, code, author, price):
        self.name = name
        self.code = code
        self.author = author
        self.price = price

    def __str__(self):
        return f'书名：{self.name}，作者：{self.author}，价格：{self.price}，编号：{self.code}'

下面是__str__函数是一个魔法函数，当我们使用 print 打印一个 Book 对象的时候，Python 会自动调用这个函数。

parse_book 函数：

import json

def parse_book(json_text):
    '''根据返回的JSON字符串，解析书的列表'''
    books = []
    # 把JSON字符串转成一个字典dict类
    book_json = json.loads(json_text)
    records = book_json['data']['records']
    for r in records:
        author = r['authors']
        name = r['name']
        code = r['code']
        price = r['price']
        book = Book(name, code, author, price)
        books.append(book)
    return books

在最上面 import 了 json 模块，这是 Python 自带的，不用安装
关键的代码就是使用 json 把抓来的 JSON 字符串转成字典，剩下的是对字典的操作，就很容易理解了。

抓取基于 JavaScript 的网页，复杂主要在于分析过程，一旦分析完成了，抓取的代码比 HTML 的页面还要更简单清爽。

这里给大家分享一份Python全套学习资料，包括学习路线、软件、源码、视频、面试题等等，都是我自己学习时整理的，希望可以对正在学习或者想要学习Python的朋友有帮助！

CSDN大礼包：全网最全《全套Python学习资料》免费分享🎁

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

👉CSDN大礼包🎁：全网最全《Python学习资料》免费分享（安全链接，放心点击）👈

1️⃣零基础入门

① 学习路线

对于从来没有接触过Python的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

② 路线对应学习视频

还有很多适合0基础入门的学习视频，有了这些视频，轻轻松松上手Python~ 在这里插入图片描述

③练习题

每节视频课后，都有对应的练习题哦，可以检验学习成果哈哈！
在这里插入图片描述
因篇幅有限，仅展示部分资料

2️⃣国内外Python书籍、文档

① 文档和书籍资料

在这里插入图片描述

3️⃣Python工具包+项目源码合集

①Python工具包

学习Python常用的开发软件都在这里了！每个都有详细的安装教程，保证你可以安装成功哦！
在这里插入图片描述

②Python实战案例

光学理论是没用的，要学会跟着一起敲代码，动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。100+实战案例源码等你来拿！
在这里插入图片描述

③Python小游戏源码

如果觉得上面的实战案例有点枯燥，可以试试自己用Python编写小游戏，让你的学习过程中增添一点趣味！
在这里插入图片描述

4️⃣Python面试题

我们学会了Python之后，有了技能就可以出去找工作啦！下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述

5️⃣Python兼职渠道

而且学会Python以后，还可以在各大兼职平台接单赚钱，各种兼职渠道+兼职注意事项+如何和客户沟通，我都整理成文档了。
在这里插入图片描述

上述所有资料 ⚡️ ，朋友们如果有需要 📦《全套Python学习资料》的，可以扫描下方二维码免费领取 🆓
😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓