汽车消费网用户投诉数据爬取及其数据处理,强烈建议观看时间部分数据处理!!!

本文介绍了如何爬取汽车消费网的用户投诉数据,并重点讲解了在数据处理过程中,尤其是时间部分的处理方法。通过观察网址结构,使用Xpath和正则表达式解析和清洗数据,包括去除无关字段、统一时间格式等,从而得到干净的数据集。
摘要由CSDN通过智能技术生成

汽车消费网用户投诉数据爬取及其数据处理,强烈建议观看时间部分数据处理!!!

汽车现在是不可或缺的一种生活交通工具了,在“车”时代的洪流下,对于汽车的需求量日益剧增。而对于汽车制造商来讲,既是一种机遇也是一项挑战,因为一种型号的汽车在出厂调试的时候不可能做到面面俱到。近年来汽车投诉问题也是汽车制造商面临的巨大的实际商业问题。基于这个问题,我们不妨来爬取一下用户们到底投诉的问题是什么,让我们当一把汽车制造商的市场调研员吧。(猴子又回来了hhh)

1、网址网站的观察

本次进军的网站是汽车消费网
在这里插入图片描述
详情页(第一个🚗🚗为例)
在这里插入图片描述

这次爬取的思路是

1、得到所有品牌详情页网址。
2、得到每个品牌的每个问题车俩的详情网址。
3、循环访问每个问题车俩的详情网址,爬取红框里的内容。

1、首先我们打开网页的检查设置:
在这里插入图片描述
这里先用抓包工具(红框部分)点击网页上的品牌一栏,可以发现每个字母下都有每个品牌的详情网址(这就很舒服了)我们就可以用Xpath把所有品牌的网址拿下来。
2、得到每个品牌下每个问题汽车详情页
在这里插入图片描述
在对每个品牌的网址访问到以后,需要对每个问题车俩的网址得到,因为上面默认设置是车型不限,所以需要对每个问题车俩进行详情页链接的得到,然后进行翻页处理得到所有问题车俩的网页链接。在上面的截图中就可看出每个问题车俩的链接网址,用同样的Xpath解析就可以得到这个链接了。
那么这一步的难点在那里呢?
主要在以下两个方面:
1、在这里插入图片描述
这种就是有很多页,需要一页一页的翻,得到所有的网址,而前面的“共***页”就是一个得到总页数的绝妙切入点。
2、在这里插入图片描述
第2种就是这样,在这个品牌下没有问题车俩,我们在网页上看不到“共***页”也就无法定位,那么如果用通用的方法去写代码,就会出问题,所以考虑到用判断语句!!!
好!!!在得到所有问题车俩的网页链接后,就需要对字段进行爬取了!!!(加油!加油!)
继续分析。。。
在这里插入图片描述
进入到一个问题车俩的详细页,按部就班的打开检查,利用抓包工具,很快我们就看到了我们需要的部分(hhhh,胜利在望了!!!),那么我们就可以去循环访问这些链接,然后得到数据啦!!!

2、万众瞩目的代码环节来啦!!!(快坐好!快坐好!)

import requests
from lxml import etree
import pandas as pd
import re
import time###导入库
headers={
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
   'Cookie': 'UM_distinctid=172451f1e3d5c0-087a218a188407-d373666-1fa400-172451f1e3e852; ip_che_curr_city=sh%2C9%2C0; Hm_lvt_59a0ccce5f22f1f9f19ce468f5250bca=1590299104; ip_che_city=sh%2C9%2C0; Hm_lpvt_59a0ccce5f22f1f9f19ce468f5250bca=1590302879; CNZZDATA30010794=cnzz_eid%3D860918270-1590292283-%26ntime%3D1590308523; CNZZDATA1257409530=427422905-1590296648-%7C1590307493'}
headers={
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
   'Cookie': 'UM_distinctid=172451f1e3d5c0-087a218a188407-d373666-1fa400-172451f1e3e852; ip_che_curr_city=sh%2C9%2C0; Hm_lvt_59a0ccce5f22f1f9f19ce468f5250bca=1590299104; ip_che_city=sh%2C9%2C0; Hm_lpvt_59a0ccce5f22f1f9f19ce468f5250bca=1590302879; CNZZDATA30010794=cnzz_eid%3D860918270-1590292283-%26ntime%3D1590308523; CNZZDATA1257409530=427422905-1590296648-%7C1590307493'}###设置请求头
url='http://tousu.315che.com/tousulist/serial/55467/'
res=requests.get(url,headers=headers)###访问主网址
res.encoding='utf8'###内容解码
ht=etree.HTML(res.text)###继续Xpath前的标准化操作
a=ht.xpath('//div[@class="row clearfix tousu-brand-list"]/a/@href')###得到每个品牌的链接
a[0]=url###因为主网站就是第一个品牌,所以需要将得到的第一个网址替换(原始得到的第一个不是网址)
urll=[]###用来装每个问题车辆的网址
for i in range(len(a)):
    ress=requests.get(a[i],headers=headers)
    ress.encoding='utf8'
    htt=etree.HTML(ress.text)
    page=''.join(htt.xpath
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值