shell抓取网页内容

本文介绍了如何使用shell脚本来抓取和下载网页中的PDF文件。首先,通过shell命令抓取网页内容,然后提取出数据请求链接,接着利用正则表达式匹配需要的PDF链接,去除重复行,并替换特定文本以便于下载。最终,通过shell脚本实现批量下载。
摘要由CSDN通过智能技术生成

使用shell抓取网页内容

最近需要下载网页中的所有pdf,做了一个shell脚来用来抓取网页所有的pdf链接。具体步骤如下

准备

抓取网页

链接:https://www.nexperia.cn/products/automotive-qualified-products-aec-q100-q101.html
在这里插入图片描述

抓取内容:数据手册下所有PDF文件,例如BZX884S_SER

 

获取抓取内容

由于抓取的内容是不是静态网页,而是请求返回,需要获取数据请求链接

  1. 通过F12打开浏览器开发者模式

  2. 点击Network

  3. 点击你需要请求的链接。例如我需要请求PDF列表,就点击下图这些页码去请求数据,我点了第1页
    在这里插入图片描述

  4. 结果如下图所示,框中是我需要的链接&#

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值