python爬虫-解决网页中取不到的信息-”真假网页“

最新推荐文章于 2025-04-15 16:01:13 发布

带鱼工作室

最新推荐文章于 2025-04-15 16:01:13 发布

阅读量2.2w

点赞数 36

分类专栏：计算机技术 python 爬虫文章标签： Python爬虫异步传输

本文链接：https://blog.csdn.net/liaoningxinmin/article/details/80794774

版权

python 同时被 3 个专栏收录

36 篇文章

订阅专栏

计算机技术

31 篇文章

订阅专栏

爬虫

6 篇文章

订阅专栏

首先介绍一下我所理解的“真假网页”，“真网页”就是我们可以直接通过网址（URL），获取这个“真网页”上的任何内容。“假网页”就是我们通过URL爬取网页信息时得到的结果为空，这一点相信大家在写爬虫程序时会经常遇到。比如我们想获取一个网页的信息，利用requests的get方法对URL进行请求，再用BeautifulSoup进行解析后我们发现得到的结果为空！这样我们就可能使用了一个“假网页”，

比如我们想获取电子学报的目录的所有信息，如下图所示：

通常我们的写法是这样的：

import requests
from bs4 import BeautifulSoup
res = requests.get("http://navi.cnki.net/KNavi/JournalDetail?pcode=CJFD&pykm=DZXU")
soup = BeautifulSoup(res.text,'html.parser')
print(soup)

但是我们打印soup后发现其中并没有任何的目录信息！也就是说，这个网址是一个“假网址”，我们想要的内容虽然显示在了这个网址上，但我们却爬取不到关于他的任何信息！那么只有一种可能，就是它的信息在别的网址上，那么我们会考率2种情况：1.异步加载 2.异步传输（这两个有点像，大家别弄混了！）

1.异步加载是动态爬取得典型情况，也就是不是直接呈现给我们的，而是通过加载后才呈现给我们的，这部分通常在JavaScript中，我们依次检查JavaScript，就会找到真正的网址！如下图中蓝色框框可见

2.异步传输：通常数据传输有两种模式，同步传输和异步传输。同步传输是将一个数据块直接发送，这样呈现给我们的就是通常的静态网页，那么和为异步传输？异步传输是将数据分为一块一块的，不直接呈现一个完整的数据，那么这部分数据在XHR下，如下如所示：

我们依次检查XHR中每一项，如下如所示：

我们可以看到有4个XHR，依次检查，我们点击每一项，在右侧相应中查看自己想要的信息，我们可以在第3个XHR中发现自己想要的信息，如下图所示：

那么此时我们就发现了自己想要的信息，那么接下来我们点击消息头，在消息头中我们可以看到请求网址，那么这个网址就是我们苦苦寻找的”真网址“，接着通过以下代码就可以获取自己想要的信息了！

from bs4 import BeautifulSoup
import requests
url='http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD'
res = requests.get(url)
soup = BeautifulSoup(res.text,'html.parser')
print(soup)

那么“真假网址”的问题就解决了，欢迎大家一起讨论！