【python实战案例——采集二手车数据并分析其价值】

最新推荐文章于 2024-07-27 12:20:46 发布

意点源

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量1.8k

点赞数 3

文章标签： python pycharm 开发语言

本文链接：https://blog.csdn.net/qq_42886625/article/details/131248828

版权

前言

本次实战案例采取python爬取网页数据，并分析合肥市二手车市场大数据。
二手车售卖网（淘车网）：https://hefei.taoche.com/all/

环境

python 3.8
windows 7 64位
Pycharm

模块使用(第三方库需要自行安装)

requests >>> pip install requests
parsel >>> pip install parsel
csv

安装python第三方模块:

1.win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

2.在pycharm中点击Terminal(终端) 输入安装命令

爬虫基本流程

一. 数据来源分析
1.明确需求:

明确采集网站是什么?
明确采集数据是什么?
车辆基本信息

2.分析车辆基本信息数据, 具体是请求那个网址可以得到

通过开发者工具, 进行抓包分析:
打开开发者工具: F12 / 鼠标右键点击检查选择network
刷新网页: 让本网页数据内容重新加载一遍 <方便分析数据出处>
搜索数据来源: 复制你想要的内容, 进行搜索即可
车辆信息数据

二. 代码实现步骤
1.发送请求, 模拟浏览器对于url地址发送请求

2.获取数据, 获取服务器返回响应数据

3.开发者工具: response <网页源代码>

4.解析数据, 提取我们想要的数据内容

5.车辆信息
6.保存数据, 把车辆信息保存csv表格里面
7.生成可视化大数据

代码展示

采集数据
导入模块

# 导入数据请求模块 --> 第三方模块 需要安装 pip install requests
import requests
# 导入数据解析模块 --> 第三方模块 需要安装 pip install parsel
import parsel
# 导入csv模块 --> 内置模块 不需要安装
import csv

创建文件

f = open('data.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '标题',
    '年份',
    '里程',
    '城市',
    '价格',
    '标签',
    '是否保修',
    '详情页',
])

写入表头

csv_writer.writeheader()

完整代码展示


#汽车基本数据
import bs4
import requests
from bs4 import BeautifulSoup
import csv
import pandas
url="https://hefei.taoche.com/all/?page={}"
header={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36"
}
with open("二手车基本信息.csv","w",encoding="utf-8",newline="") as file:
    f=csv.writer(file)
    f.writerow(["标题","年份","里程(万公里)","城市","价格(万元)","标签","是否保修","详情页"])
    for page in range(1, 51):
        print(f'======================正在采集第{page}页的数据内容======================')
        resp=requests.get(url=url.format(page),headers=header)
    # print(resp)
        soup=BeautifulSoup(resp.content,"html.parser")
    # print(soup)
        big=soup.find("ul",attrs={"class":"gongge_ul"})
        for i in big:
            if type(i) is not bs4.NavigableString:
                a_all=i.find("a",attrs={"class":"title"})
                title=a_all.get("title")    #标题
                href=a_all.get("href")      #详情页
                a=i.find("p").text.replace("|","").replace("\n","")
                year = a[0:6]              #年份
                gls = a[30:34]             #里程
                city = a[87:93]            #城市
                price=i.find("i",attrs={"class":"Total brand_col"}).text    #价格
                price=price.replace("万"," ")
                # bq=i.find("em",attrs={"class":"qgg_tag"})    #标签
                if i.find("em",attrs={"class":"qgg_tag"})==None:
                    bq =None
                else:
                    bq=i.find("em",attrs={"class":"qgg_tag"}).text
                # bx=i.find("i",attrs={"class":"tc_label"})  #保修
                if i.find("i",attrs={"class":"tc_label"})==None:
                    bx = None
                else:
                    bx=i.find("i",attrs={"class":"tc_label"}).text
                f.writerow([title,year,gls,city,price,bq,bx,href])

爬取信息截图
年份分布

import pandas as pd

from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.faker import Faker

df=pd.read_csv("二手车基本信息.csv")
df.head()
df['年份'].value_counts().values.tolist()
year_num =df['年份'].value_counts().values.tolist()
year_type=df['年份'].value_counts().index.tolist()



c = (
    Pie()
    .add("", [list(z) for z in zip(year_type, year_num)])
    .set_global_opts(title_opts=opts.TitleOpts(title="年份分布"))
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    .render("bigdata/cardata/年份分布.html")
)

年份分布
城市分布

from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.faker import Faker
import pandas as pd
df=pd.read_csv("二手车基本信息.csv")
city_num = df['城市'].value_counts().tolist()[:10]
city_type = df['城市'].value_counts().index.tolist()[:10]
c = (
    Bar()
        .add_xaxis(city_type)
        .add_yaxis("城市", city_num, color=Faker.rand_color())
        .set_global_opts(
        title_opts=opts.TitleOpts(title="城市分布"),
        datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
    )
        .render("bigdata/cardata/城市分布.html")

)