一 点睛
如何才能利用Splash渲染页面呢?怎样才能和Python程序结合使用并抓取JavaScript渲染的页面呢?
其实Splash给我们提供了一些HTTP API接口,我们只需要请求这些接口并传递相应的参数即可。
二 render.html
1 点睛
此接口用于获取JavaScript渲染的页面的HTML代码,接口地址就是Splash的运行地址加此接口名称。
例如http://localhost:8050/render.html。
我们给此接口传递了一个url参数来指定渲染的URL,返回结果即页面渲染后的源代码。
2 代码
import requests
url = 'http://localhost:8050/render.html?url=https://www.baidu.com'
response = requests.get(url)
print(response.text)
3 结果
4 说明
这样就可以成功输出百度页面渲染后的源代码了。
5 实战
5.1 点睛
此接口还可以指定其他参数,比如通过wait指定等待秒数。如果要确保页面完全加载出来,可以增加等待时间。
5.2 代码