使用shell抓取网页内容
最近需要下载网页中的所有pdf,做了一个shell脚来用来抓取网页所有的pdf链接。具体步骤如下
准备
抓取网页
链接:https://www.nexperia.cn/products/automotive-qualified-products-aec-q100-q101.html
抓取内容:数据手册下所有PDF文件,例如BZX884S_SER
获取抓取内容
由于抓取的内容是不是静态网页,而是请求返回,需要获取数据请求链接
-
通过
F12
打开浏览器开发者模式 -
点击
Network
-
点击你需要请求的链接。例如我需要请求PDF列表,就点击下图这些页码去请求数据,我点了第1页
-
结果如下图所示,框中是我需要的链接&#