汽车消费网用户投诉数据爬取及其数据处理，强烈建议观看时间部分数据处理！！！

最新推荐文章于 2022-01-13 15:52:14 发布

猴猴猴子

最新推荐文章于 2022-01-13 15:52:14 发布

阅读量1.4k

点赞数 3

分类专栏：爬虫文章标签：正则表达式数据分析 python 定位 Xpath教程

本文链接：https://blog.csdn.net/WjoKe/article/details/107073235

版权

本文介绍了如何爬取汽车消费网的用户投诉数据，并重点讲解了在数据处理过程中，尤其是时间部分的处理方法。通过观察网址结构，使用Xpath和正则表达式解析和清洗数据，包括去除无关字段、统一时间格式等，从而得到干净的数据集。

摘要由CSDN通过智能技术生成

汽车消费网用户投诉数据爬取及其数据处理，强烈建议观看时间部分数据处理！！！

汽车现在是不可或缺的一种生活交通工具了，在“车”时代的洪流下，对于汽车的需求量日益剧增。而对于汽车制造商来讲，既是一种机遇也是一项挑战，因为一种型号的汽车在出厂调试的时候不可能做到面面俱到。近年来汽车投诉问题也是汽车制造商面临的巨大的实际商业问题。基于这个问题，我们不妨来爬取一下用户们到底投诉的问题是什么，让我们当一把汽车制造商的市场调研员吧。（猴子又回来了hhh）

1、网址网站的观察

本次进军的网站是汽车消费网：
在这里插入图片描述
详情页（第一个🚗🚗为例）

这次爬取的思路是

1、得到所有品牌详情页网址。
2、得到每个品牌的每个问题车俩的详情网址。
3、循环访问每个问题车俩的详情网址，爬取红框里的内容。

1、首先我们打开网页的检查设置：
在这里插入图片描述
这里先用抓包工具（红框部分）点击网页上的品牌一栏，可以发现每个字母下都有每个品牌的详情网址（这就很舒服了）我们就可以用Xpath把所有品牌的网址拿下来。
2、得到每个品牌下每个问题汽车详情页
在这里插入图片描述
在对每个品牌的网址访问到以后，需要对每个问题车俩的网址得到，因为上面默认设置是车型不限，所以需要对每个问题车俩进行详情页链接的得到，然后进行翻页处理得到所有问题车俩的网页链接。在上面的截图中就可看出每个问题车俩的链接网址，用同样的Xpath解析就可以得到这个链接了。
那么这一步的难点在那里呢？
主要在以下两个方面：
1、在这里插入图片描述
这种就是有很多页，需要一页一页的翻，得到所有的网址，而前面的“共***页”就是一个得到总页数的绝妙切入点。
2、
第2种就是这样，在这个品牌下没有问题车俩，我们在网页上看不到“共***页”也就无法定位，那么如果用通用的方法去写代码，就会出问题，所以考虑到用判断语句！！！
好！！！在得到所有问题车俩的网页链接后，就需要对字段进行爬取了！！！（加油！加油！）
继续分析。。。
在这里插入图片描述
进入到一个问题车俩的详细页，按部就班的打开检查，利用抓包工具，很快我们就看到了我们需要的部分（hhhh，胜利在望了！！！），那么我们就可以去循环访问这些链接，然后得到数据啦！！！

2、万众瞩目的代码环节来啦！！！（快坐好！快坐好！）

import requests
from lxml import etree
import pandas as pd
import re
import time###导入库
headers={
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
   'Cookie': 'UM_distinctid=172451f1e3d5c0-087a218a188407-d373666-1fa400-172451f1e3e852; ip_che_curr_city=sh%2C9%2C0; Hm_lvt_59a0ccce5f22f1f9f19ce468f5250bca=1590299104; ip_che_city=sh%2C9%2C0; Hm_lpvt_59a0ccce5f22f1f9f19ce468f5250bca=1590302879; CNZZDATA30010794=cnzz_eid%3D860918270-1590292283-%26ntime%3D1590308523; CNZZDATA1257409530=427422905-1590296648-%7C1590307493'}
headers={
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
   'Cookie': 'UM_distinctid=172451f1e3d5c0-087a218a188407-d373666-1fa400-172451f1e3e852; ip_che_curr_city=sh%2C9%2C0; Hm_lvt_59a0ccce5f22f1f9f19ce468f5250bca=1590299104; ip_che_city=sh%2C9%2C0; Hm_lpvt_59a0ccce5f22f1f9f19ce468f5250bca=1590302879; CNZZDATA30010794=cnzz_eid%3D860918270-1590292283-%26ntime%3D1590308523; CNZZDATA1257409530=427422905-1590296648-%7C1590307493'}###设置请求头
url='http://tousu.315che.com/tousulist/serial/55467/'
res=requests.get(url,headers=headers)###访问主网址
res.encoding='utf8'###内容解码
ht=etree.HTML(res.text)###继续Xpath前的标准化操作
a=ht.xpath('//div[@class="row clearfix tousu-brand-list"]/a/@href')###得到每个品牌的链接
a[0]=url###因为主网站就是第一个品牌，所以需要将得到的第一个网址替换（原始得到的第一个不是网址）
urll=[]###用来装每个问题车辆的网址
for i in range(len(a)):
    ress=requests.get(a[i],headers=headers)
    ress.encoding='utf8'
    htt=etree.HTML(ress.text)
    page=''.join(htt.xpath