shell抓取网页内容

最新推荐文章于 2024-07-28 23:42:25 发布

匆匆那年s

最新推荐文章于 2024-07-28 23:42:25 发布

阅读量5k

点赞数 1

分类专栏：工具文章标签： shell bash linux 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28626013/article/details/111568190

版权

本文介绍了如何使用shell脚本来抓取和下载网页中的PDF文件。首先，通过shell命令抓取网页内容，然后提取出数据请求链接，接着利用正则表达式匹配需要的PDF链接，去除重复行，并替换特定文本以便于下载。最终，通过shell脚本实现批量下载。

摘要由CSDN通过智能技术生成

使用shell抓取网页内容

最近需要下载网页中的所有pdf，做了一个shell脚来用来抓取网页所有的pdf链接。具体步骤如下

准备

抓取网页

链接：https://www.nexperia.cn/products/automotive-qualified-products-aec-q100-q101.html
在这里插入图片描述

抓取内容：数据手册下所有PDF文件，例如BZX884S_SER

获取抓取内容

由于抓取的内容是不是静态网页，而是请求返回，需要获取数据请求链接

通过F12打开浏览器开发者模式
点击Network
点击你需要请求的链接。例如我需要请求PDF列表，就点击下图这些页码去请求数据，我点了第1页
结果如下图所示，框中是我需要的链接，若出现太多链接找不到所需要的，可以重复步骤1

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
shell抓取网页内容

使用shell抓取网页内容最近需要下载网页中的所有pdf，做了一个shell脚来用来抓取网页所有的pdf链接。具体步骤如下准备抓取网页链接：https://www.nexperia.cn/products/automotive-qualified-products-aec-q100-q101.html抓取内容：数据手册下所有PDF文件，例如BZX884S_SER 获取抓取内容由于抓取的内容是不是静态网页，而是请求返回，需要获取数据请求链接通过F12打开浏览器开发者模式
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。