利用Python抓取获取口碑频道SUV紧凑型车全部的数据

本文介绍了如何使用Python爬虫抓取汽车之家口碑频道SUV紧凑型车的数据,包括车名、价格、特点和评分。通过分析网站结构,选择request库,提取XPath表达式来获取所有车辆的链接,并完成数据的抓取和存储到Excel表格中。
摘要由CSDN通过智能技术生成

利用Python抓取获取口碑频道SUV紧凑型车全部的数据.md

1.介绍项目

2.分析网站结构

3.说明技术选择

4.excel表格构建字段

1. 介绍项目

利用Python抓取获取口碑频道SUV紧凑型车全部的数据(车名,价格,特点,评分)

网址:https://k.autohome.com.cn/suva1/#pvareaid=6848948

2. 分析网站结构

首先进入汽车之家,在口碑频道选择SUV紧凑型车

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2Drd92zO-1666849876603)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wpsC4E1.tmp.jpg)]

鼠标右键,点击检查,再点击网络,刷新,点击出现的第一个数据包,发现该url请求方式是使用get请求

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FKPeKUEo-1666849876604)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wpsC4E2.tmp.jpg)]

分析url所在的数据包,发现该数据包有所需数据,则准备进行抓取

目标url:https://k.autohome.com.cn/suva1/#pvareaid=6848948

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rJyi1xFN-1666849876605)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wpsC4E3.tmp.jpg)]

3. 说明技术选择

该网页将用request抓取所需数据

观察和浏览目标url所在页,发现SUV紧凑型车仅有这一页,也就是说抓取数据时不用更换页码参数

#该url不需要更改任何参数
url='https://k.autohome.com.cn/suva1/#pvareaid=6848948'

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SZWag4iq-1666849876606)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wpsC4E4.tmp.jpg)]

选中汽车名称这一元素,跳转至该位置,右键复制其xpath,并将其粘贴到插件xpath上,即可检查是否是所需数据,最后发现就是所需数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kec58fxg-1666849876607)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wps9594.tmp.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MBiGgWXl-1666849876608)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wpsC4F5.tmp.jpg)]

用xpath提取单个汽车链接(此时的链接还不完整,后续还要补充完整链接)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ARoj9MS3-1666849876609)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wpsD42C.tmp.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sGg78l0u-1666849876609)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wpsC4F6.tmp.jpg)]

修改xpath,获取这一页所有SUV紧凑型车各汽车链接

import requests
from lxml import etree
url='https://k.autohome.com.cn/suva1/#pvareaid=6848948'
headers={
   
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73'
}
res=requests.get(url,headers=headers)
print(res)#响应200
#将html字符串转换为element
html=etree.HTML(res.text)
hrefs=html.xpath('/html/body/div[2]/div[2]/div/div/div[2]/dl/dd/ul/li[*]/div[2]/a/@href')
print(hrefs)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PeWDzXFY-1666849876610)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wps50A6.tmp.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qd0SsPPL-1666849876610)(file:///C:\Users\16611\AppData\Local\Temp\ksohtml\wpsC4F7.tmp.jpg)]

补全每一个链接并一一发送请求,用xpath提取所需数据

for href in hrefs:
    #补全每一个链接
    new_url="https://k.autohome.com.cn"+href
    print(new_url)
        #对每个遍历的汽车链接发送请求,获取数据
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73'
    }
    res2 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值