前言
本次实战案例采取python爬取网页数据,并分析合肥市二手车市场大数据。
二手车售卖网(淘车网):https://hefei.taoche.com/all/
环境
- python 3.8
- windows 7 64位
- Pycharm
模块使用(第三方库需要自行安装)
-
requests >>> pip install requests
-
parsel >>> pip install parsel
-
csv
安装python第三方模块:
1.win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
2.在pycharm中点击Terminal(终端) 输入安装命令
爬虫基本流程
一. 数据来源分析
1.明确需求:
- 明确采集网站是什么?
- 明确采集数据是什么?
- 车辆基本信息
2.分析 车辆基本信息数据, 具体是请求那个网址可以得到
-
通过开发者工具, 进行抓包分析:
-
打开开发者工具: F12 / 鼠标右键点击检查选择network
-
刷新网页: 让本网页数据内容重新加载一遍 <方便分析数据出处>
-
搜索数据来源: 复制你想要的内容, 进行搜索即可
-
车辆信息数据
二. 代码实现步骤
1.发送请求, 模拟浏览器对于url地址发送请求
2.获取数据, 获取服务器返回响应数据
3.开发者工具: response <网页源代码>
4.解析数据, 提取我们想要的数据内容
5.车辆信息
6.保存数据, 把车辆信息保存csv表格里面
7.生成可视化大数据
代码展示
采集数据
导入模块
# 导入数据请求模块 --> 第三方模块 需要安装 pip install requests
import requests
# 导入数据解析模块 --> 第三方模块 需要安装 pip install parsel
import parsel
# 导入csv模块 --> 内置模块 不需要安装
import csv
创建文件
f = open('data.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
'标题',
'年份',
'里程',
'城市',
'价格',
'标签',
'是否保修',
'详情页',
])
写入表头
csv_writer.writeheader()
完整代码展示
#汽车基本数据
import bs4
import requests
from bs4 import BeautifulSoup
import csv
import pandas
url="https://hefei.taoche.com/all/?page={}"
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36"
}
with open("二手车基本信息.csv","w",encoding="utf-8",newline="") as file:
f=csv.writer(file)
f.writerow(["标题","年份","里程(万公里)","城市","价格(万元)","标签","是否保修","详情页"])
for page in range(1, 51):
print(f'======================正在采集第{page}页的数据内容======================')
resp=requests.get(url=url.format(page),headers=header)
# print(resp)
soup=BeautifulSoup(resp.content,"html.parser")
# print(soup)
big=soup.find("ul",attrs={"class":"gongge_ul"})
for i in big:
if type(i) is not bs4.NavigableString:
a_all=i.find("a",attrs={"class":"title"})
title=a_all.get("title") #标题
href=a_all.get("href") #详情页
a=i.find("p").text.replace("|","").replace("\n","")
year = a[0:6] #年份
gls = a[30:34] #里程
city = a[87:93] #城市
price=i.find("i",attrs={"class":"Total brand_col"}).text #价格
price=price.replace("万"," ")
# bq=i.find("em",attrs={"class":"qgg_tag"}) #标签
if i.find("em",attrs={"class":"qgg_tag"})==None:
bq =None
else:
bq=i.find("em",attrs={"class":"qgg_tag"}).text
# bx=i.find("i",attrs={"class":"tc_label"}) #保修
if i.find("i",attrs={"class":"tc_label"})==None:
bx = None
else:
bx=i.find("i",attrs={"class":"tc_label"}).text
f.writerow([title,year,gls,city,price,bq,bx,href])
年份分布
import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.faker import Faker
df=pd.read_csv("二手车基本信息.csv")
df.head()
df['年份'].value_counts().values.tolist()
year_num =df['年份'].value_counts().values.tolist()
year_type=df['年份'].value_counts().index.tolist()
c = (
Pie()
.add("", [list(z) for z in zip(year_type, year_num)])
.set_global_opts(title_opts=opts.TitleOpts(title="年份分布"))
.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
.render("bigdata/cardata/年份分布.html")
)
城市分布
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.faker import Faker
import pandas as pd
df=pd.read_csv("二手车基本信息.csv")
city_num = df['城市'].value_counts().tolist()[:10]
city_type = df['城市'].value_counts().index.tolist()[:10]
c = (
Bar()
.add_xaxis(city_type)
.add_yaxis("城市", city_num, color=Faker.rand_color())
.set_global_opts(
title_opts=opts.TitleOpts(title="城市分布"),
datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
)
.render("bigdata/cardata/城市分布.html")
)
可视化大数据
项目打包地址:gitee仓库