爬虫
文章平均质量分 61
记录平时爬虫的感悟和坑
people_king
广结天下码友
展开
-
【爬虫实战】汽车之家——3.0
前言在爬取的过程中,主要的速度影响是脚本访问服务器的这段时间,但如果可以分工合作,同时进行,速度可能会的到大幅度提升,本文章将使用多线程对图片的下载进行加速。分析在往期的爬虫程序中,将图片下载到本地的时间最久,需要花费大约30分钟左右(不同的机器、不同的网络环境不同),所有接下来只针对图片进行多线程划分任务。在此之前,需要了解数组等份划分,可按照输入的n,对数组进行n等分,这里参考了一篇牛人的文章,附上链接https://blog.csdn.net/weixin_39220714/article/d原创 2021-08-21 20:20:23 · 350 阅读 · 0 评论 -
【爬虫实战】汽车之家——2.1
前言在上一篇文章中已成功爬取某个品牌的所有车型数据,但是只爬取了每种车型的第一页的数据,本篇文章将修复这个缺陷网址分析打开网址,查看宝马i8的图片首页,右键下一页检查元素发现是个a标签,并且属性为一个网址href="/pic/series-t/2387-1-p2.html",访问该网址是第二页的内容,并且图片的布局与第一页相似,再查看最后一页按钮下一页的元素内容这时的属性值为href="javascript:void(0);",再对比其他车型的内容,最后一页下一页按钮的href值都为"javas原创 2021-08-20 22:15:48 · 238 阅读 · 0 评论 -
【爬虫实战】汽车之家——2.0
前言上一篇文章爬虫实战——汽车之家——1.0,爬取的是汽车之家指定某网页第一页的图片,现在我们对1.0的代码进行升级,依次爬取改某品牌汽车所有车型的车身外观图预览目标网址:https://car.autohome.com.cn/pic/brand-15.html网址预览网址分析右键网页界面,选择检查(审查元素),可以看到网页的源码写好注释了,一个大的类属性是row的大div包裹着三个小的类为row的div这三个对应的div分别对应的是三个厂家的车型...原创 2021-08-16 18:02:19 · 362 阅读 · 0 评论 -
【爬虫实战】汽车之家——1.0
前言平时喜欢到汽车之家看车,也喜欢收藏汽车模型。这次使用爬虫把汽车之家某网页的图片保存到电脑。本文章仅供学习!预览目标网址:https://car.autohome.com.cn/pic/series/4171-1.html网址预览网址分析随机选择一张图片右键点击检查(审查元素)选择img标签的属性src,访问图片。所看到的图片比例为480×360,清晰度不是很高,所有我们点击图片查看高清图片同样右键图片,找到图片的地址,访问图片显然,图片的清晰度明显比480×360的高原创 2021-08-13 18:10:35 · 892 阅读 · 1 评论