Python 利用Selenium爬取嵌入网页的PDF（web embedded PDF）

Gfrwe

已于 2023-11-24 14:18:41 修改

阅读量4.7k

点赞数 7

文章标签： selenium pdf python 爬虫

于 2023-08-11 13:59:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gfrwe/article/details/132228578

版权

前言：

在下载欧洲专利局Global Dossier中的专利审查文件时,想到可以利用Python批量下载，省去一些重复劳动的时间。以下载一篇美国专利（US2021036638A1）的审查档案为例，该专利的审查档案地址为：European Patent Register

探索记录：

初涉Python，本人是个纯纯的小白，爬虫也是看入门书籍了解到了皮毛😅，因此也是走一步看一步，出现问题自己慢慢在网上找答案。经过大量试错，最终总结了下方的探索历程，要是有大佬能够看出有啥更方便的渠道，还望不吝赐教。

1.Ajax异步加载应对方式：

进入审查档案网址European Patent Register，按F12打开开发者工具后，发现文件位置处于<tbody>下的<tr标签中>

但是采用request+beautifulsoup模块的方式解析网站时，并不能正确地解析出该网站的内容。经过在网上的查找，应该是这个网站采用了Ajax技术异步加载，也就是我们要解析的内容不是网页原本存在的，而是后期加载进网页中的，简单的request+beautifulsoup的组合拳无法解析ajax加载的内容(个人浅薄的理解，英语专业的我也不知道Ajax技术具体是啥😤，本段解释仅供参考。)

那么，如何解析Ajax加载的内容呢？又经过查询，Ajax的请求位置可以通过开发者工具中的【网络】查看。实际加载的部分就是下图红

最低0.47元/天解锁文章

关注

7
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Gfrwe CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

178万+: 周排名

29万+: 总排名

6192: 访问

: 等级

36: 积分

6: 粉丝

15: 获赞

3: 评论

24: 收藏

私信

关注

热门文章

最新评论

Python 利用Selenium爬取嵌入网页的PDF（web embedded PDF）
CSDN-Ada助手: 恭喜你写了第一篇博客！标题很吸引人，我对你使用Selenium爬取嵌入网页的PDF感到非常期待。对于这个主题，我建议你在博客中详细介绍一下Selenium的使用方法，包括如何定位嵌入网页中的PDF元素以及如何提取其中的内容。同时，如果你能分享一些实际案例或遇到的挑战，并提供一些解决方法，将会让读者更加受益。希望你在下一篇博客中能够继续分享你的经验和学习心得，期待更多精彩内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Python 利用Selenium爬取嵌入网页的PDF（web embedded PDF）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617009711。

最新文章

中国及多国专利审查信息查询系统PDF文件下载方法

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。