作者:Irain
GitHub项目链接:https://github.com/Irain-LUO/Resume_Projects.
二手车之家数据之可视化分析
1 引用库、数据文件、清洗函数:
# 作者:Irain
# QQ联系方式:2573396010
# 日期:2020年4月8日
%matplotlib inline
import pandas
import xlrd #读取Excel文件的包
import xlsxwriter #将文件写入Excel的包
import os
import sys
import matplotlib as mpl
import matplotlib.pyplot as plt
#解决绘图中的中文字体显示问题
from pylab import *
mpl.rcParams['font.sans-serif'] = ['SimHei']
#seaborn下的直方图
import seaborn as sns
import warnings
import statsmodels.api as sm # 拟合数据
warnings.filterwarnings('ignore')
data = pandas.read_excel('D:/Information/Working/pycharm/jike/venv/Try/ErShouCheZhiJia/ErSC_Thread/所有汽车清理数据/二手车之家的所有汽车原始数据.xlsx')
data = data.drop('Unnamed: 0', axis=1)
data = data[data['汽车售价/万'] < 100] # 清洗少数售价 > 100
data = data[data['汽车原价/万'] < 200] # 清洗少数原价 > 200
# data = data[(data['售/原'] * 0.01).index()]
# data
# data = data.drop(index=(data.loc[(data['售/原'] / 100)].index)) # 清洗异常数据'[]'
data = data.drop(index=(data.loc[(data['颜色']=='[]')].index)) # 清洗异常数据'[]'
data = data.drop(index=(data.loc[(data['上牌时间'] =='未上牌')].index)) # 清洗异常数据'[]'
data1 = data
data
数据源:
2 数据簇状分布图
2.1 汽车售价簇状分布图
fig , ax = plt.subplots(1,1, figsize=(16, 8))
# fig.suptitle("原价与售价对比",fontsize=20,x=0.5,y=0.95) # 总图标题
ax.set_title("汽车售价/万", fontsize=25, color = 'red') # 子图标题
ax.hist(data['汽车售价/万'],bins = 20)
plt.ylabel("汽车数量", fontsize=20, color = 'blue') #设置X轴Y轴名称 ,字体大小,颜色
plt.xlabel("汽车售价", fontsize=20, color = 'blue')
plt.tick_params(labelsize=20) # 刻度字体大小
labels = ax.get_xticklabels() + ax.get_yticklabels()
[label.set_fontname('Times New Roman') for label in labels]
ax.xaxis.set_major_locator(MultipleLocator(5)) # x轴刻度值之家的差
ax.yaxis.set_major_locator(MultipleLocator(500)) # y轴刻度值之家的差
2.2 汽车原价簇状分布图
fig , ax = plt.subplots(1,1, figsize=(16, 8))
# fig.suptitle("原价与售价对比",fontsize=20,x=0.5,y=0.95) # 总图标题
ax.set_title("汽车原价/万", fontsize=25, color = 'red') # 子图标题
ax.hist(data['汽车原价/万'],bins = 20