BeautifulSoup解析HTML无法获取Javascript渲染内容

问题描述:

爬取新浪体育上的NBA球队信息,使用bs4爬取html的时候发现球队名称及链接python获取不到,但是chromeF12是可以看到的

url_downed = urlopen(response)
html = BeautifulSoup(url_downed,features="html.parser")
html_teams = html.select('a[href*="//slamdunk.sports.sina.com.cn/team?tid="]')
# 这里select不到内容,但是下图中可以看到

在这里插入图片描述
这是因为内容在JavaScript的代码中,为了能让我们看到其中的内容,浏览器会对JavaScript代码进行渲染,得到其中的内容后再呈现到我们面前。然而,爬虫程序无法对HTML文件中的JavaScript代码进行渲染。因此,如果我们的目标镶嵌在JavaScript中,那么我们爬到的数据往往就会缺少目标内容。

解决方法

1. requests-html

requests-html是一个轻量级的HTML解析模块,可以让我们模仿浏览器的行为,隐式地渲染js内容(即打开浏览器,渲染,点击等动作不会在前台展示过程,类似于selenium,只不过更轻量级)
pip install requests-html安装模块

修改之前的代码为:

session = HTMLSession()
first_page = session.get('https://slamdunk.sports.sina.com.cn/roster')
first_page.html.render(sleep=0.5) # 留出网页渲染的时间
html = BeautifulSoup(first_page.html.html, features="lxml") # 这里要用lxml
html_teams = html.select('a[href*="//slamdunk.sports.sina.com.cn/team?tid="]')

成功

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值