Python爬取搜狐车型数据

最新推荐文章于 2022-07-19 17:22:16 发布

nodoself

最新推荐文章于 2022-07-19 17:22:16 发布

阅读量1.4k

点赞数 3

分类专栏： Python爬虫文章标签： Python爬虫汽车车型

本文链接：https://blog.csdn.net/nodoself/article/details/81328088

版权

本文介绍了如何利用Python的selenium库抓取搜狐汽车网站的车型参数数据，由于原始数据无法通过requests获取，作者详细阐述了通过selenium模拟浏览器操作抓取渲染后数据的步骤，包括获取品牌、车系、车型链接，并处理可能的网络延迟问题。虽然过程耗时较长，但最终能成功获取所需数据。

摘要由CSDN通过智能技术生成

主要工具Python+selenium+Excel

因为工作需要想要获得车型参数数据，查找了网络上面的教程和相关的文章都没有达到我想要的效果，所以自己慢慢摸索着写了这些代码，可能有一些代码繁琐且没有必要，但我毕竟只是懂点皮毛的小菜鸟，如果大家有什么可以优化的方法，欢迎指教~

如果你同我一样是需要车型参数数据的，可以按照我的方法来，不过selenium有个缺点就是非常慢，而且有时候会出现抓不到数据的情况，但是如果你跟我一样有耐心且网速好的话，车型数据是肯定可以抓取下来的，而且时间说不定会比我少，毕竟我抓取这些数据花费了我一星期的时间，哎，无力吐槽的网速啊。

主要获取的数据如下图所示：

Python部分

因为搜狐汽车车型库的数据用requests爬取之后得不到对应的数据，所以需要用selenium来抓取渲染之后的数据。

步骤1：

首先打开搜狐车型库的网页，按F12进入开发者模式，点击Network里面的Doc查看源网页数据，可以看到每个品牌对应的链接。

import requests
import re
from bs4 import BeautifulSoup


def getHtml(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
    html = requests.get(url, headers=headers)
    return html.text

# def getCCfirm(html):  # 获得厂商的名称和链接
#     soup = BeautifulSoup(html, 'lxml')
#     string = soup.find_all(class_='con_tit')  # 获得车型的品牌的分类
#     pattern = re.compile('<a href="(.*?)".*?>(.*?)</a>', re.S)  # 获得车型的URL和车型的品牌
#     items = re.findall(pattern, str(string))
#     for item in items:
#