背景:最近在看各种金融相关的文档,觉得还是课件ppt上讲的逻辑清晰,好理解一些,但是各个网站下载很贵,总是在线看又怕找不着了,看着这些ppt就流口水,这就想办法简单的爬下来。
实验目标下载百度文库ppt
问题:
1、https连接请求
2、页面存在未完全展开情况,即【继续阅读】需要点击
3、存在浏览器js渲染,ppt的图片连接渲染后能得到真实的
成果
下载目标:
转换结果
思想:
1、使用selenium调用谷歌浏览器,实现渲染
2、模拟点击和敲击回车事件,实现各个页面渲染
3、保存渲染后的ppt图片
4、借助pptx实现ppt操作,即ppt插入图片等操作
一、准备
下载谷歌驱动:
准备必要的第三方模块:pptx,selenium
二、初始化谷歌浏览器驱动
def init_driver():
"""
初始化驱动
可以增加请求头,模拟手机端登陆,获取到文库文字信息
:return:
"""
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(BROWSER_PATH, chrome_options=options)
# options.add_argument(
# 'user-agent="Mozilla/5.0 (Linux; Android 4.0.4; \ Galaxy Nexus Bu