这是一篇不完整的文章,嗯,因为后期我需要的参数不能完全爬取出来,所以我要先去借鉴一下其他大神的步骤。
以下代码都是自己想的,所以想记录一下,以便之后温习和反思。
首先,打开汽车之家的车型库https://car.autohome.com.cn/
然后按F12进入开发者模式,找到Ashx的连接,因为还是新手,所有的连接都一个个的点击了,找到了车型品牌的连接。
好了,现在可以进行代码爬取了。爬取车型品牌及连接。之前操作的时候,并没有发现少了一个或几个品牌。
import requests
import re
import random
import time
#获取车型的品牌及ID
url="https://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=94%20&fctId=0%20&seriesId=0"
Html = requests.get(url, timeout=2).text
pattern= "<h3><a href='(.*?)'><i class='icon10 icon10-sjr'></i>(.*?)<em>(.*?)</em></a></h3>"
uids = re.findall(pattern, Html)
with open('cars_qiche.txt', 'w', encoding='utf-8') as f:
for i in uids:
f.write(str(i) + '\n')
f.close()
结果如下:
将获得的品牌的id,构建成完整的连接。菜鸟阶段,只能一步一步的操作。
#将品牌ID添加到链接当中
with open('cars_qiche.txt', 'r', encoding='utf-8') as f:
pattern = '/price/brand-(.*?).html'
with open('brandid_qiche.txt','w') as b:
for i in f:
sid =