爬虫笔记day09

这篇博客详细记录了如何爬取汽车之家网站的多级页面数据,目标是获取汽车型号。首先,分析了一级页面和二级页面的数据内容,发现所需数据在响应内容中都存在。接着,通过观察URL地址的规律,发现页码在特定位置变化。然后,编写了正则表达式用于匹配一级和二级页面的数据,并实现了抓取代码。最后,运行了代码并得到了预期的结果。
摘要由CSDN通过智能技术生成

汽车之家多级页面数据爬取

url地址:https://www.che168.com/beijing/a0_0msdgscncgpi1lto1csp1exx0/
爬取目标:二级地址抓取车的型号
案例分析:
一级页面所抓数据:汽车详情页链接
二级页面所抓数据:车的标题

数据抓取的实现步骤:
1、确定响应内容中是否存在所需抓取
两级页面所抓取数据在响应内容中全部存在

2、观察url地址规律:
第一页:https://www.che168.com/beijing/a0_0msdgscncgpi1lto1csp1exx0/
第二页:https://www.che168.com/beijing/a0_0msdgscncgpi1lto1csp2exx0/
第三页:https://www.che168.com/beijing/a0_0msdgscncgpi1lto1csp{}exx0/

3、编写正则表达式:
一级页面实例html代码:

<li class="cards-li list-photo-li " name="lazyloadcpc" lazyloadcpc="0" id="shucar_42322782" isfin="0" brandid="110" seriesid="2716" linktype="4" publicdate="2021-11-11T16:25:09Z" iscpl="0" iscxlm="0" fromtype="60" islimit="0" isafteraudit="10" abtest="10" order="0" isrecom="3" infoid="42322782" carname="威志V5 2012款 1.5L 手动精英型" price="1.38" cid="110100" pid="110000" milage="11"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

废材终结者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值