使用nodeJs从汽车之家爬取汽车外观图片

最新推荐文章于 2023-05-14 17:14:07 发布

scut_少东

最新推荐文章于 2023-05-14 17:14:07 发布

阅读量1k

点赞数 1

分类专栏： nodeJs 文章标签：爬虫汽车图片

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33594380/article/details/89023389

版权

本文介绍了如何使用Node.js从汽车之家网站爬取汽车外观图片，包括图片URL的获取和图片的下载。作者在分析汽车之家页面结构后，利用https和cheerio库编写爬虫，解决了图片URL的特殊格式问题和翻页处理。最后，提供了GitHub项目的链接。

摘要由CSDN通过智能技术生成

最近在做毕业设计的时候需要用到大量的汽车图片作为数据集进行训练，一开始尝试从两个渠道获取图片：

一是去找ImageNet 中的汽车分类的图片，结果发现这里面的汽车图片总量比较少，且不同车种差异较大（我只想要一般的私家车图片）。还有一个问题是访问ImageNet 需要外网，从别人那里接了一台能翻墙的服务器，选了合适的种类，折腾半天，好不容易下载下来，再清洗一下，能用的只剩五千张左右；

二是从百度图片上以汽车为关键词爬取图片，这个方案的问题在于爬到的图片各式各样，虽然关键词是汽车，但是什么图片都可能爬得到，而且图片重复率高，质量差，清洗的成本非常高。

于是开始思考从汽车之家上爬取图片，去看了一下，汽车之家上的图片质量都很高，而且数量非常多，就用nodeJs 写个脚本开始爬。本文主要记录了在写脚本过程中的思考和尝试过程，并给出了最终的代码。为了使整个过程看起来逻辑更清晰，把这个完整的任务分成图片Url 获取和图片获取两部分来实现。Url 获取的结果是一个或若干个写满了图片Url 地址的txt 文件（在线传输成本低），图片获取的结果是根据Url 文件中的内容爬到的图片。

1、图片Url 获取

所有的图片Url 都是从汽车之家的网页上拿到的，所以首先需要对包含汽车外观图片的页面进行分析，以便搞清楚我们要怎么拿到网页中图片的Url，这里以如下页面为例进行分析：

https://car.autohome.com.cn/pic/series/2288-1.html#pvareaid=2042220

页面图片如下所示：

从图中可以看到series 系列网页中所有车身外观的图片都位于具有.uibox-con.carpic-list03 类名的一个div 下，其具体位置可以表示如下：

div.uibox-con.carpic-list03 ul li a img

从图中可以看到的另个一问题是img 的sr

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用nodeJs从汽车之家爬取汽车外观图片

最近在做毕业设计的时候需要用到大量的汽车图片作为数据集进行训练，一开始尝试从两个渠道获取图片：一是去找ImageNet 中的汽车分类的图片，结果发现这里面的汽车图片总量比较少，且不同车种差异较大（我只想要一般的私家车图片）。还有一个问题是访问ImageNet 需要外网，从别人那里接了一台能翻墙的服务器，选了合适的种类，折腾半天，好不容易下载下来，再清洗一下，能用的只剩五千张左右；二是从百度...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。