Task2-数据分析

最新推荐文章于 2021-04-19 13:17:45 发布

m0_57109583

最新推荐文章于 2021-04-19 13:17:45 发布

阅读量143

点赞数 2

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_57109583/article/details/115770966

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Task2-数据分析

通过task1 赛题理解分析数据做出更加直观的图表用一下一个阶段的分析处理。

载入各种数据科学以及可视化库同时载入数据

#导入所需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
#导入数据资料
Train_data = pd.read_csv('ptrain.csv', sep=' ')
Test_data = pd.read_csv('testA.csv', sep=' ')
#其中train. csv，testA. csc是所导入的测试集和训练集的地址加上自己命名的训练集测试集的名称

首先要简略的观察数据

Train_data.head().append(Train_data.tail())
#结果
style>
SaleID	name	regDate	model	brand	bodyType	fuelType	gearbox	power	kilometer	...	v_5	v_6	v_7	v_8	v_9	v_10	v_11	v_12	v_13	v_14
0	0	736	20040402	30.0	6	1.0	0.0	0.0	60	12.5	...	0.235676	0.101988	0.129549	0.022816	0.097462	-2.881803	2.804097	-2.420821	0.795292	0.914762
1	1	2262	20030301	40.0	1	2.0	0.0	0.0	0	15.0	...	0.264777	0.121004	0.135731	0.026597	0.020582	-4.900482	2.096338	-1.030483	-1.722674	0.245522
2	2	14874	20040403	115.0	15	1.0	0.0	0.0	163	12.5	...	0.251410	0.114912	0.165147	0.062173	0.027075	-4.846749	1.803559	1.565330	-0.832687	-0.229963
3	3	71865	19960908	109.0	10	0.0	0.0	1.0	193	15.0	...	0.274293	0.110300	0.121964	0.033395	0.000000	-4.509599	1.285940	-0.501868	-2.438353	-0.478699
4	4	111080	20120103	110.0	5	1.0	0.0	0.0	68	5.0	...	0.228036	0.073205	0.091880	0.078819	0.121534	-1.896240	0.910783	0.931110	2.834518	1.923482
149995	149995	163978	20000607	121.0	10	4.0	0.0	1.0	163	15.0	...	0.280264	0.000310	0.048441	0.071158	0.019174	1.988114	-2.983973	0.589167	-1.304370	-0.302592
149996	149996	184535	20091102	116.0	11	0.0	0.0	0.0	125	10.0	...	0.253217	0.000777	0.084079	0.099681	0.079371	1.839166	-2.774615	2.553994	0.924196	-0.272160
149997	149997	147587	20101003	60.0	11	1.0	1.0	0.0	90	6.0	...	0.233353	0.000705	0.118872	0.100118	0.097914	2.439812	-1.630677	2.290197	1.891922	0.414931
149998	149998	45907	20060312	34.0	10	3.0	1.0	0.0	156	15.0	...	0.256369	0.000252	0.081479	0.083558	0.081498	2.075380	-2.633719	1.414937	0.431981	-1.659014
149999	149999	177672	19990204	19.0	28	6.0	0.0	1.0	193	12.5	...	0.284475	0.000000	0.040072	0.062543	0.025819	1.978453	-3.179913	0.031724	-1.483350	-0.342674

要养成习惯于观察数据头尾的良好习惯，不至于导致之后每一步都是错误的## Task2-数据分析
通过task1 赛题理解分析数据做出更加直观的图表用一下一个阶段的分析处理。

载入各种数据科学以及可视化库同时载入数据

#导入所需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
#导入数据资料
Train_data = pd.read_csv('ptrain.csv', sep=' ')
Test_data = pd.read_csv('testA.csv', sep=' ')
#其中train. csv，testA. csc是所导入的测试集和训练集的地址加上自己命名的训练集测试集的名称

首先要简略的观察数据，这里列举一个训练集

Train_data.head().append(Train_data.tail())
#结果
style>
SaleID	name	regDate	model	brand	bodyType	fuelType	gearbox	power	kilometer	...	v_5	v_6	v_7	v_8	v_9	v_10	v_11	v_12	v_13	v_14
0	0	736	20040402	30.0	6	1.0	0.0	0.0	60	12.5	...	0.235676	0.101988	0.129549	0.022816	0.097462	-2.881803	2.804097	-2.420821	0.795292	0.914762
1	1	2262	20030301	40.0	1	2.0	0.0	0.0	0	15.0	...	0.264777	0.121004	0.135731	0.026597	0.020582	-4.900482	2.096338	-1.030483	-1.722674	0.245522
2	2	14874	20040403	115.0	15	1.0	0.0	0.0	163	12.5	...	0.251410	0.114912	0.165147	0.062173	0.027075	-4.846749	1.803559	1.565330	-0.832687	-0.229963
3	3	71865	19960908	109.0	10	0.0	0.0	1.0	193	15.0	...	0.274293	0.110300	0.121964	0.033395	0.000000	-4.509599	1.285940	-0.501868	-2.438353	-0.478699
4	4	111080	20120103	110.0	5	1.0	0.0	0.0	68	5.0	...	0.228036	0.073205	0.091880	0.078819	0.121534	-1.896240	0.910783	0.931110	2.834518	1.923482
149995	149995	163978	20000607	121.0	10	4.0	0.0	1.0	163	15.0	...	0.280264	0.000310	0.048441	0.071158	0.019174	1.988114	-2.983973	0.589167	-1.304370	-0.302592
149996	149996	184535	20091102	116.0	11	0.0	0.0	0.0	125	10.0	...	0.253217	0.000777	0.084079	0.099681	0.079371	1.839166	-2.774615	2.553994	0.924196	-0.272160
149997	149997	147587	20101003	60.0	11	1.0	1.0	0.0	90	6.0	...	0.233353	0.000705	0.118872	0.100118	0.097914	2.439812	-1.630677	2.290197	1.891922	0.414931
149998	149998	45907	20060312	34.0	10	3.0	1.0	0.0	156	15.0	...	0.256369	0.000252	0.081479	0.083558	0.081498	2.075380	-2.633719	1.414937	0.431981	-1.659014
149999	149999	177672	19990204	19.0	28	6.0	0.0	1.0	193	12.5	...	0.284475	0.000000	0.040072	0.062543	0.025819	1.978453	-3.179913	0.031724	-1.483350	-0.342674

要养成习惯于观察数据头尾的良好习惯，不至于导致之后每一步都是错误的

总揽数据概况

用describe() 来熟悉数据的相关统计量

Train_data.describe()
#结果
</style>
SaleID	name	regDate	model	brand	bodyType	fuelType	gearbox	power	kilometer	...	v_5	v_6	v_7	v_8	v_9	v_10	v_11	v_12	v_13	v_14
count	150000.000000	150000.000000	1.500000e+05	149999.000000	150000.000000	145494.000000	141320.000000	144019.000000	150000.000000	150000.000000	...	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000
mean	74999.500000	68349.172873	2.003417e+07	47.129021	8.052733	1.792369	0.375842	0.224943	119.316547	12.597160	...	0.248204	0.044923	0.124692	0.058144	0.061996	-0.001000	0.009035	0.004813	0.000313	-0.000688
std	43301.414527	61103.875095	5.364988e+04	49.536040	7.864956	1.760640	0.548677	0.417546	177.168419	3.919576	...	0.045804	0.051743	0.201410	0.029186	0.035692	3.772386	3.286071	2.517478	1.288988	1.038685
min	0.000000	0.000000	1.991000e+07	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.500000	...	0.000000	0.000000	0.000000	0.000000	0.000000	-9.168192	-5.558207	-9.639552	-4.153899	-6.546556
25%	37499.750000	11156.000000	1.999091e+07	10.000000	1.000000	0.000000	0.000000	0.000000	75.000000	12.500000	...	0.243615	0.000038	0.062474	0.035334	0.033930	-3.722303	-1.951543	-1.871846	-1.057789	-0.437034
50%	74999.500000	51638.000000	2.003091e+07	30.000000	6.000000	1.000000	0.000000	0.000000	110.000000	15.000000	...	0.257798	0.000812	0.095866	0.057014	0.058484	1.624076	-0.358053	-0.130753	-0.036245	0.141246
75%	112499.250000	118841.250000	2.007111e+07	66.000000	13.000000	3.000000	1.000000	0.000000	150.000000	15.000000	...	0.265297	0.102009	0.125243	0.079382	0.087491	2.844357	1.255022	1.776933	0.942813	0.680378
max	149999.000000	196812.000000	2.015121e+07	247.000000	39.000000	7.000000	6.000000	1.000000	19312.000000	15.000000	...	0.291838	0.151420	1.404936	0.160791	0.222787	12.357011	18.819042	13.847792	11.147669	8.658418

这里的数据非常有用，之后异常值的填充，修改，可以根据这里面的从最小到最大适当选取填充值。

判断数据缺失和异常

判断数据缺失和异常
个人建议首先把所有的值都计数总数分类输出一遍（这样比较安心）
当然可以通过info（）输出来检测异常值，但是info（）无法检测出一些数值极端可删除的特征，之后也需要查找是否有极端特征，所以建议直接把所有值输出。
这里我就不在赘述info() 的做法了

Train_data['notRepairedDamage'].value_counts()
#结果
0.0    111361
 -     24324
1.0   14315
- Name: notRepairedDamage, dtype: object

Train_data['seller'].value_counts()
#结果
0    149999
1         1
Name: seller, dtype: int64

Train_data["offerType"].value_counts()
#结果
0    150000
Name: offerType, dtype: int64

篇幅原因，先写到这里，笔者建议全部都计算出来，观察是否有严重倾斜，结合实际情况决定是否删除这几个数据特征，当然也可以继续进行挖掘，但一般意义不大，其中seller和offerType严重倾斜，分别是销售商和提供报价类型，实际情况应该和预测价格无关，可以删掉。
而notRepairedDamage中有0，1，其中的-属于异常值，他所代表的是汽车是否有尚未修复的部分。虽然数据缺失很多，因为其会影响实际价格的预测，所以不建议整列删掉，而不管是填充0还是1都会对预测值产生影响，所以可以选择删掉一行（笔者也是刚学，我提一个建议，是否可以按照现有比例将异常值填充0，1，只是一个想法，笔者还未学过特征分析）

观察更改之后的异常值

Train_data.isnull().sum()
#结果
SaleID                   0
name                     0
regDate                  0
model                    1
brand                    0
bodyType              4506
fuelType              8680
gearbox               5981
power                    0
kilometer                0
notRepairedDamage    24324
regionCode               0
seller                   0
offerType                0
creatDate                0
price                    0
v_0                      0
v_1                      0
v_2                      0
v_3                      0
v_4                      0
v_5                      0
v_6                      0
v_7                      0
v_8                      0
v_9                      0
v_10                     0
v_11                     0
v_12                     0
v_13                     0
v_14                     0
dtype: int64

结尾

随后就是对数据图表进行分析，虽然能照猫画虎画出图表，但以我目前的水平还分析不出来个所以然，等再学一些知识返回来继续分析这些图表。

m0_57109583

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Task2-数据分析

Task2-数据分析通过task1 赛题理解分析数据做出更加直观的图表用一下一个阶段的分析处理。载入各种数据科学以及可视化库同时载入数据#导入所需要的库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport missingno as msno#导入数据资料Train_data = pd.read_csv('ptrain.csv', sep=' ')Te
复制链接

扫一扫