使用Python爬取任意网页的资源文件,比如图片、音频、视频;一般常用的做法就是把网页的HTML请求下来通过XPath或者正则来获取自己想要的资源,这里我做了一个爬虫工具软件,可以一键爬取资源 媒体文件;但是需要说明的是,这里爬取资源文件只针对HTML已有的文件,如果需要二次请求的是爬取不到的,比如酷狗音乐播放界面,因为要做通用工具,匹配不同的网站!!!😀😀😀
这里主推图片爬取,一些需要图片素材的可以输入网址一键爬取!
这里要注意:不管你是为了Python就业还是兴趣爱好,记住:项目开发经验永远是核心,如果你没有2020最新python入门到高级实战视频教程,可以去小编的Python交流.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,里面很多新python教程项目,还可以跟老司机交流讨教!
还有就是爬取视频的时候会把磁力链接爬取下来!可以使用第三方下载工具下载!🤗
代码
爬取资源文件
这里需要说明的就只,有的图片资源并不是url链接,是data:image格式,这里需要转换一下存储!
def getResourceUrlList(url ,isImage, isAudio, is