自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

转载 2021-06-17

datawhale6月组队学习-task02 1. 数据清洗 1.1 缺失值 # 查看 df.isnull.sum() # 填充 df.loc[df['Age'].isnull(),'Age'] = df['Age'].mean() # 删除 1.2 重复值 # 查看重复值 df[df.duplicated()] # 清理重复值 df = df.drop_duplicates() 1.3 异常值 画箱线图,见task01 2. 特征处理 2.1 分箱处理 # 用cut #将连续变量Age平均分箱成5

2021-06-17 23:23:38 89

原创 datawhale6月组队学习-task01

datawhale6月组队学习-task01 1.数据加载 利用kaggle网站的泰坦尼克号数据集进行学习分析 下载网址: https://www.kaggle.com/c/titanic/overview # 导入相关库 import numpy as np import pandas as pd import os 1.1 加载数据 (1) 使用相对路径载入数据 # 相对路径载入 os.getcwd() #查看当前工作目录,将数据集复制到这里 train_data = pd.read_csv('tr

2021-06-15 21:47:17 78

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除