爬取京东部分数据，使用beautifulsoup4，遇到异步加载的解决办法。

最新推荐文章于 2023-04-07 08:57:52 发布

胖超人

最新推荐文章于 2023-04-07 08:57:52 发布

阅读量2.9k

点赞数 1

分类专栏： beautifulsoup 爬虫 flatten python

本文链接：https://blog.csdn.net/qq_37532151/article/details/86633113

版权

异步加载的网页，解决办法

亲们：作为一名测试人员，时不时的客串下别的角色亦是我的工作职责。公司需要爬取京东部分数据，不可避免的会遇到技术问题。废话不多说，说下异步加载怎样应对。

科普一下先，老鸟请跳过。异步加载也叫非阻塞模式加载，浏览器在下载js的同时，同时还会执行后续的页面处理。简单的来讲，beautifulsoup解析的html文件，与在浏览器中网页呈现的html并不完全一致（尤其是商品价格，商品名称等等），你就可以认为是异步加载。（实际并非如此，还有可能是延迟加载，异步加载就是并发请求html内容，我暂时是这样理解的）
来，步入正题。
我目前知道两种解决异步加载的办法，我采用的是第二种解决办法。
办法一
浏览器打开异步加载的网页，按f12，查看网络中的xhr。假如当前异步加载的网址是www.baidu.com，你在刷新的时候，查看xhr中的内容，你会发现，你本来只打算请求一下（大部分都这么觉得），实际却发出了很多个请求。仔细看xhr中这些请求的响应或者json，你就能发现在这些并发的请求中，有你想要得到的数据。具体怎样操作，根据你的业务需求组织即可。这个我是纯属理论中的，并没有实践。
办法二
selenium获取异步加载后的html文件。因为我是测试，对selenium并不陌生，所以我选择这种方法。操作步骤为：1，selenium指定浏览器；2，浏览器打开异步加载网页；3，获取html文件。代码如下

driver = webdriver.Firefox()
driver.get("https://list.jd.com/list.html?cat=12218,13553,13576&page=%d&delivery=1"%page)
time.sleep(2)
a = driver.page_source #a即是异步加载完成的html文件，注意，如果网络不好，请将等待时间延长或者刷新后重试

下面将我的代码贴出来，并没有做处理，临时脚本

#__author__ = 'chubby_superman'
#_*_coding=utf-8 _*
from selenium import webdriver
from bs4 import BeautifulSoup
import openpyxl
import time
from compiler.ast import flatten


def h5_se(page):
    driver = webdriver.Firefox()
    try :
        driver.get("https://list.jd.com/list.html?cat=12218,13553,13576&page=%d&delivery=1"%page)
        driver.refr