打卡-Task2:数据的探索性分析（EDA）

最新推荐文章于 2020-07-29 20:59:00 发布

佛系MAN

最新推荐文章于 2020-07-29 20:59:00 发布

阅读量253

点赞数

本文链接：https://blog.csdn.net/namalala/article/details/105031903

版权

打卡-Task2:数据的探索性分析（EDA）载入数据库载入数据数据查看总览数据概况如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入载入数据库pandas和nu...

摘要由CSDN通过智能技术生成

打卡-Task2:数据的探索性分析（EDA）

载入数据库

pandas和numpy作为数据科学库导入，matplotlib和seaborn作为可视化的库导入

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

载入数据

sep=’ ’以’ '为数据分隔符读取

path = 'C:/Users/61499/Desktop/二手车交易/'
Train_data_load = open(path+'used_car_train_20200313.csv')
Test_data_load = open(path+'used_car_testA_20200313.csv')
Train_data = pd.read_csv(Train_data_load,sep=' ')
Test_data = pd.read_csv(Test_data_load,sep=' ')

数据查看

Train_data.head().append(Train_data.tail())
Train_data.shape
Test_data.head().append(Train_data.tail())
Test_data.shape

常用的pandas数据查看函数：
train.head(5) #显示前5行数据
train.tail(5) #显示后5行
train.columns #查看列名
train.info() #查看各字段的信息
train.shape #查看数据集行列分布，几行几列

总览数据概况

使用describe总览数据概况

describe种有每列的统计量，个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断，比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式，有的时候需要注意下。

Train_data.describe()
Test_data.describe()

使用info()查看数据类型和缺失值

info 通过info来了解数据每列的type，有助于了解是否存在除了nan以外的特殊符号异常

Train_data.info()
Test_data.info(

最低0.47元/天解锁文章

佛系MAN

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
打卡-Task2:数据的探索性分析（EDA）

打卡-Task2:数据的探索性分析（EDA）载入数据库载入数据数据查看总览数据概况如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入载入数据库pandas和nu...
复制链接

扫一扫