python爬取文库,python爬取文库ppt的简单实现

背景:最近在看各种金融相关的文档,觉得还是课件ppt上讲的逻辑清晰,好理解一些,但是各个网站下载很贵,总是在线看又怕找不着了,看着这些ppt就流口水,这就想办法简单的爬下来。

实验目标下载百度文库ppt

问题:

1、https连接请求

2、页面存在未完全展开情况,即【继续阅读】需要点击

3、存在浏览器js渲染,ppt的图片连接渲染后能得到真实的

成果

下载目标:

58bb7542e47466c3685547b56bead0e0.png

转换结果

fc2c3b48c97e3f845f6413ba00547b74.png

思想:

1、使用selenium调用谷歌浏览器,实现渲染

2、模拟点击和敲击回车事件,实现各个页面渲染

3、保存渲染后的ppt图片

4、借助pptx实现ppt操作,即ppt插入图片等操作

一、准备

下载谷歌驱动:

准备必要的第三方模块:pptx,selenium

二、初始化谷歌浏览器驱动

def init_driver():

"""

初始化驱动

可以增加请求头,模拟手机端登陆,获取到文库文字信息

:return:

"""

options = webdriver.ChromeOptions()

driver = webdriver.Chrome(BROWSER_PATH, chrome_options=options)

# options.add_argument(

# 'user-agent="Mozilla/5.0 (Linux; Android 4.0.4; \ Galaxy Nexus Bu

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值