使用nodeJs从汽车之家爬取汽车外观图片

本文介绍了如何使用Node.js从汽车之家网站爬取汽车外观图片,包括图片URL的获取和图片的下载。作者在分析汽车之家页面结构后,利用https和cheerio库编写爬虫,解决了图片URL的特殊格式问题和翻页处理。最后,提供了GitHub项目的链接。
摘要由CSDN通过智能技术生成

最近在做毕业设计的时候需要用到大量的汽车图片作为数据集进行训练,一开始尝试从两个渠道获取图片:

一是去找ImageNet 中的汽车分类的图片,结果发现这里面的汽车图片总量比较少,且不同车种差异较大(我只想要一般的私家车图片)。还有一个问题是访问ImageNet 需要外网,从别人那里接了一台能翻墙的服务器,选了合适的种类,折腾半天,好不容易下载下来,再清洗一下,能用的只剩五千张左右;

二是从百度图片上以汽车为关键词爬取图片,这个方案的问题在于爬到的图片各式各样,虽然关键词是汽车,但是什么图片都可能爬得到,而且图片重复率高,质量差,清洗的成本非常高。

于是开始思考从汽车之家上爬取图片,去看了一下,汽车之家上的图片质量都很高,而且数量非常多,就用nodeJs 写个脚本开始爬。本文主要记录了在写脚本过程中的思考和尝试过程,并给出了最终的代码。为了使整个过程看起来逻辑更清晰,把这个完整的任务分成图片Url 获取图片获取两部分来实现。Url 获取的结果是一个或若干个写满了图片Url 地址的txt 文件(在线传输成本低),图片获取的结果是根据Url 文件中的内容爬到的图片。

1、图片Url 获取

所有的图片Url 都是从汽车之家的网页上拿到的,所以首先需要对包含汽车外观图片的页面进行分析,以便搞清楚我们要怎么拿到网页中图片的Url,这里以如下页面为例进行分析:

https://car.autohome.com.cn/pic/series/2288-1.html#pvareaid=2042220

页面图片如下所示:

从图中可以看到series 系列网页中所有车身外观的图片都位于具有.uibox-con.carpic-list03 类名的一个div 下,其具体位置可以表示如下:

div.uibox-con.carpic-list03 ul li a img

从图中可以看到的另个一问题是img 的sr

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值