汽车之家多级页面数据爬取
url地址:https://www.che168.com/beijing/a0_0msdgscncgpi1lto1csp1exx0/
爬取目标:二级地址抓取车的型号
案例分析:
一级页面所抓数据:汽车详情页链接
二级页面所抓数据:车的标题
数据抓取的实现步骤:
1、确定响应内容中是否存在所需抓取
两级页面所抓取数据在响应内容中全部存在
2、观察url地址规律:
第一页:https://www.che168.com/beijing/a0_0msdgscncgpi1lto1csp1exx0/
第二页:https://www.che168.com/beijing/a0_0msdgscncgpi1lto1csp2exx0/
第三页:https://www.che168.com/beijing/a0_0msdgscncgpi1lto1csp{}exx0/
3、编写正则表达式:
一级页面实例html代码:
<li class="cards-li list-photo-li " name="lazyloadcpc" lazyloadcpc="0" id="shucar_42322782" isfin="0" brandid="110" seriesid="2716" linktype="4" publicdate="2021-11-11T16:25:09Z" iscpl="0" iscxlm="0" fromtype="60" islimit="0" isafteraudit="10" abtest="10" order="0" isrecom="3" infoid="42322782" carname="威志V5 2012款 1.5L 手动精英型" price="1.38" cid="110100" pid="110000" milage="11"