- 博客(4)
- 收藏
- 关注
原创 Task04 数据可视化
选择合适的图形1、直方图如果数据是单一的连续变量回答数据按照何种形状分布的问题2、箱型图当拥有连续的变量,并且连续变量被分类变量所分割的时候。当需要对连续变量在不同分类区间进行数据分布的比较的时候。3、散点图数据中包括两个连续的变量希望回答两个变量间的关系4、线型图拥有两个连续型的变量希望回答的问题是与两个连续型变量相关的数据集的获取是连续的,是通过某种方式连接起来的5、条形图通常的用法拥有一个分类的变量需要对每个类别进行进行计数或百分比不通常的用法
2020-08-23 10:58:42 133 1
原创 Task03 数据重构
数据合并1.concat方法将数据train-left-up.csv和trainright-up.csv横向合并为一张表,并保存这张表为result_uplist_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)将train-left-down和train-rightdown横向合并为一张表,并保存这张表为result_down。然后将上 边的result_up和result_down纵向合并为res
2020-08-23 10:34:28 130
原创 数据清洗及特征处理
Task02 数据清洗及特征处理2.1 缺失值观察与处理df.isnull().sum()处理缺失值df[df['Age'] == np.nan] = 0删除缺失值df.dropna().head(3)填补缺失值df.fillna(0).head(3)2.2 重复值观察与处理查看重复值df[df.duplicated()]删除重复值df.drop_duplicates().head()将前面清洗的数据保存为csv格式df.to_csv('test_clear.csv
2020-08-20 22:31:40 306
原创 Task01 数据加载及探索性数据分析
Task01:数据加载及探索性数据分析数据加载1.1载入数据1.1.1 任务一:导入numpy和pandasimport numpy as npimport pandas as pd1.1.2 任务二:载入数据(1) 使用相对路径载入数据(2) 使用绝对路径载入数据df = pd.read_csv('train.csv')df.head()df = pd.read_csv('C:/Users/keke/Desktop/titanic_ans7798/train.csv')1
2020-08-17 23:16:24 308
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人