BeautifulSoup解析HTML无法获取Javascript渲染内容

最新推荐文章于 2025-03-10 15:50:44 发布

LLOJVQE

最新推荐文章于 2025-03-10 15:50:44 发布

阅读量2.1k

点赞数

分类专栏：西北实习文章标签： javascript python 爬虫

本文链接：https://blog.csdn.net/weixin_41989712/article/details/120512408

版权

西北实习专栏收录该内容

48 篇文章

订阅专栏

在爬取新浪体育NBA球队信息时遇到困难，原始方法无法获取球队名称和链接，因为这些内容是在JavaScript中动态加载的。为了解决这个问题，可以使用requests-html库，它能够模拟浏览器渲染JavaScript。通过HTMLSession()获取页面，然后调用render()方法等待页面渲染，最后再用BeautifulSoup解析，就能成功获取原本隐藏的内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述：

爬取新浪体育上的NBA球队信息，使用bs4爬取html的时候发现球队名称及链接python获取不到，但是chromeF12是可以看到的

url_downed = urlopen(response)
html = BeautifulSoup(url_downed,features="html.parser")
html_teams = html.select('a[href*="//slamdunk.sports.sina.com.cn/team?tid="]')
# 这里select不到内容，但是下图中可以看到

在这里插入图片描述
这是因为内容在JavaScript的代码中，为了能让我们看到其中的内容，浏览器会对JavaScript代码进行渲染，得到其中的内容后再呈现到我们面前。然而，爬虫程序无法对HTML文件中的JavaScript代码进行渲染。因此，如果我们的目标镶嵌在JavaScript中，那么我们爬到的数据往往就会缺少目标内容。

解决方法

1. requests-html

requests-html是一个轻量级的HTML解析模块，可以让我们模仿浏览器的行为，隐式地渲染js内容（即打开浏览器，渲染，点击等动作不会在前台展示过程，类似于selenium，只不过更轻量级）
pip install requests-html安装模块

修改之前的代码为：

session = HTMLSession()
first_page = session.get('https://slamdunk.sports.sina.com.cn/roster')
first_page.html.render(sleep=0.5) # 留出网页渲染的时间
html = BeautifulSoup(first_page.html.html, features="lxml") # 这里要用lxml
html_teams = html.select('a[href*="//slamdunk.sports.sina.com.cn/team?tid="]')

成功