【python实战案例——采集二手车数据并分析其价值】

前言

本次实战案例采取python爬取网页数据,并分析合肥市二手车市场大数据。
二手车售卖网(淘车网):https://hefei.taoche.com/all/

环境

  • python 3.8
  • windows 7 64位
  • Pycharm

模块使用(第三方库需要自行安装)

  • requests >>> pip install requests

  • parsel >>> pip install parsel

  • csv

安装python第三方模块:

1.win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

2.在pycharm中点击Terminal(终端) 输入安装命令

爬虫基本流程

一. 数据来源分析
1.明确需求:

  • 明确采集网站是什么?
  • 明确采集数据是什么?
  • 车辆基本信息

2.分析 车辆基本信息数据, 具体是请求那个网址可以得到

  • 通过开发者工具, 进行抓包分析:

  • 打开开发者工具: F12 / 鼠标右键点击检查选择network

  • 刷新网页: 让本网页数据内容重新加载一遍 <方便分析数据出处>

  • 搜索数据来源: 复制你想要的内容, 进行搜索即可

  • 车辆信息数据

二. 代码实现步骤
1.发送请求, 模拟浏览器对于url地址发送请求

2.获取数据, 获取服务器返回响应数据

3.开发者工具: response <网页源代码>

4.解析数据, 提取我们想要的数据内容

5.车辆信息
6.保存数据, 把车辆信息保存csv表格里面
7.生成可视化大数据

代码展示

采集数据
导入模块

# 导入数据请求模块 --> 第三方模块 需要安装 pip install requests
import requests
# 导入数据解析模块 --> 第三方模块 需要安装 pip install parsel
import parsel
# 导入csv模块 --> 内置模块 不需要安装
import csv

创建文件

f = open('data.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '标题',
    '年份',
    '里程',
    '城市',
    '价格',
    '标签',
    '是否保修',
    '详情页',
])

写入表头

csv_writer.writeheader()

完整代码展示


#汽车基本数据
import bs4
import requests
from bs4 import BeautifulSoup
import csv
import pandas
url="https://hefei.taoche.com/all/?page={}"
header={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36"
}
with open("二手车基本信息.csv","w",encoding="utf-8",newline="") as file:
    f=csv.writer(file)
    f.writerow(["标题","年份","里程(万公里)","城市","价格(万元)","标签","是否保修","详情页"])
    for page in range(1, 51):
        print(f'======================正在采集第{page}页的数据内容======================')
        resp=requests.get(url=url.format(page),headers=header)
    # print(resp)
        soup=BeautifulSoup(resp.content,"html.parser")
    # print(soup)
        big=soup.find("ul",attrs={"class":"gongge_ul"})
        for i in big:
            if type(i) is not bs4.NavigableString:
                a_all=i.find("a",attrs={"class":"title"})
                title=a_all.get("title")    #标题
                href=a_all.get("href")      #详情页
                a=i.find("p").text.replace("|","").replace("\n","")
                year = a[0:6]              #年份
                gls = a[30:34]             #里程
                city = a[87:93]            #城市
                price=i.find("i",attrs={"class":"Total brand_col"}).text    #价格
                price=price.replace("万"," ")
                # bq=i.find("em",attrs={"class":"qgg_tag"})    #标签
                if i.find("em",attrs={"class":"qgg_tag"})==None:
                    bq =None
                else:
                    bq=i.find("em",attrs={"class":"qgg_tag"}).text
                # bx=i.find("i",attrs={"class":"tc_label"})  #保修
                if i.find("i",attrs={"class":"tc_label"})==None:
                    bx = None
                else:
                    bx=i.find("i",attrs={"class":"tc_label"}).text
                f.writerow([title,year,gls,city,price,bq,bx,href])

爬取信息截图
年份分布

import pandas as pd

from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.faker import Faker

df=pd.read_csv("二手车基本信息.csv")
df.head()
df['年份'].value_counts().values.tolist()
year_num =df['年份'].value_counts().values.tolist()
year_type=df['年份'].value_counts().index.tolist()



c = (
    Pie()
    .add("", [list(z) for z in zip(year_type, year_num)])
    .set_global_opts(title_opts=opts.TitleOpts(title="年份分布"))
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    .render("bigdata/cardata/年份分布.html")
)

年份分布
城市分布

from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.faker import Faker
import pandas as pd
df=pd.read_csv("二手车基本信息.csv")
city_num = df['城市'].value_counts().tolist()[:10]
city_type = df['城市'].value_counts().index.tolist()[:10]
c = (
    Bar()
        .add_xaxis(city_type)
        .add_yaxis("城市", city_num, color=Faker.rand_color())
        .set_global_opts(
        title_opts=opts.TitleOpts(title="城市分布"),
        datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
    )
        .render("bigdata/cardata/城市分布.html")

)

城市分布
可视化大数据
完整效果
项目打包地址:gitee仓库

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

意点源

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值