自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Task04 数据可视化

选择合适的图形1、直方图如果数据是单一的连续变量回答数据按照何种形状分布的问题2、箱型图当拥有连续的变量,并且连续变量被分类变量所分割的时候。当需要对连续变量在不同分类区间进行数据分布的比较的时候。3、散点图数据中包括两个连续的变量希望回答两个变量间的关系4、线型图拥有两个连续型的变量希望回答的问题是与两个连续型变量相关的数据集的获取是连续的,是通过某种方式连接起来的5、条形图通常的用法拥有一个分类的变量需要对每个类别进行进行计数或百分比不通常的用法

2020-08-23 10:58:42 133 1

原创 Task03 数据重构

数据合并1.concat方法将数据train-left-up.csv和trainright-up.csv横向合并为一张表,并保存这张表为result_uplist_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)将train-left-down和train-rightdown横向合并为一张表,并保存这张表为result_down。然后将上 边的result_up和result_down纵向合并为res

2020-08-23 10:34:28 130

原创 数据清洗及特征处理

Task02 数据清洗及特征处理2.1 缺失值观察与处理df.isnull().sum()处理缺失值df[df['Age'] == np.nan] = 0删除缺失值df.dropna().head(3)填补缺失值df.fillna(0).head(3)2.2 重复值观察与处理查看重复值df[df.duplicated()]删除重复值df.drop_duplicates().head()将前面清洗的数据保存为csv格式df.to_csv('test_clear.csv

2020-08-20 22:31:40 306

原创 Task01 数据加载及探索性数据分析

Task01:数据加载及探索性数据分析数据加载1.1载入数据1.1.1 任务一:导入numpy和pandasimport numpy as npimport pandas as pd1.1.2 任务二:载入数据(1) 使用相对路径载入数据(2) 使用绝对路径载入数据df = pd.read_csv('train.csv')df.head()df = pd.read_csv('C:‪/Users/keke/Desktop/titanic_ans7798/train.csv')1

2020-08-17 23:16:24 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除