python爬取js动图_python+Chrome爬取动态异步生成的页面内容

背景需求,发送一个中文,返回拼音+声调。

解决之道一

百度一下 “汉字转拼音api”,是否有相关免费的api,还真的找到个“showapi易源接口”。可惜它不带声调。百度一下“python汉字转拼音+声调”,找到一篇“Python: 汉字转拼音(带声调)”的文章。哈哈,按照功能实现需求了。咳咳,有些跑题。为了贴近标题,提供解决之道二。

解决之道二

百度一下某个汉字,比如“我”,打开百度汉字,如图:

发现会有很多资源,拼音、部首、笔画、五行、基本释义等等。

准备用python爬。直接用urllib.request爬取,发现得到的刚好没有这些资源,怎么回事?

在浏览器下发现有这么一串js

将unicode转中文后得到:

name":"我","type":"word","radical":null,"strokes":"7","definition":"wǒ#wo3#自称,自己,亦指自己一方:~们。~见(我自己的看法)。~辈。~侪(我们)。自~。~盈彼竭。"

说明对应的这些内容是由js动态生成的。我们需要能爬到动态的内容,可以使用selenium+chrome得到。

为什么不用PhantomJS?

一、PhantomJS暂停开发二、新版本的Selenium不再支持PhantomJS

我们可以用chrome的headless模式,当然对chrome有要求,版本需要>=60(windows)>=59(linux)。还需要对应的chromeDriverchromeDriver要求和配置可以参照我的另一篇文章《Python+selenium自动上传博客图片至新浪微博相册》

上代码~

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')driver = webdriver.Chrome(chrome_options=chrome_options, executable_path='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')driver.get("百度汉字的")print(driver.page_source)

duang~duang~duang~就这么成功爬取到了js动态生成的内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值