主要工具Python+selenium+Excel
因为工作需要想要获得车型参数数据,查找了网络上面的教程和相关的文章都没有达到我想要的效果,所以自己慢慢摸索着写了这些代码,可能有一些代码繁琐且没有必要,但我毕竟只是懂点皮毛的小菜鸟,如果大家有什么可以优化的方法,欢迎指教~
如果你同我一样是需要车型参数数据的,可以按照我的方法来,不过selenium有个缺点就是非常慢,而且有时候会出现抓不到数据的情况,但是如果你跟我一样有耐心且网速好的话,车型数据是肯定可以抓取下来的,而且时间说不定会比我少,毕竟我抓取这些数据花费了我一星期的时间,哎,无力吐槽的网速啊。
主要获取的数据如下图所示:
Python部分
因为搜狐汽车车型库的数据用requests爬取之后得不到对应的数据,所以需要用selenium来抓取渲染之后的数据。
步骤1:
首先打开搜狐车型库的网页,按F12进入开发者模式,点击Network里面的Doc查看源网页数据,可以看到每个品牌对应的链接。
import requests
import re
from bs4 import BeautifulSoup
def getHtml(url):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
html = requests.get(url, headers=headers)
return html.text
# def getCCfirm(html): # 获得厂商的名称和链接
# soup = BeautifulSoup(html, 'lxml')
# string = soup.find_all(class_='con_tit') # 获得车型的品牌的分类
# pattern = re.compile('<a href="(.*?)".*?>(.*?)</a>', re.S) # 获得车型的URL和车型的品牌
# items = re.findall(pattern, str(string))
# for item in items:
#