Kaggle-数据清理5天挑战

最新推荐文章于 2023-11-29 09:14:14 发布

呆萌程小王

最新推荐文章于 2023-11-29 09:14:14 发布

阅读量960

点赞数

分类专栏：机器学习数据预处理 kaggle 文章标签：机器学习数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_32590125/article/details/80456533

版权

本文是Kaggle数据清理5天挑战的一部分，重点讨论如何处理缺失值。从观察数据、检查缺失值数量、分析缺失原因，到决定是否丢弃或填充缺失值。介绍了多种填充方法，如直接用0填充、使用下一行值填充，以及更高级的解决方案，如丢弃列和使用平均值等进行插补。通过比较不同方法的模型得分来评估效果。

摘要由CSDN通过智能技术生成

Day 1: Data Cleaning Challenge: Handling missing values | Kaggle
Day 2: Data Cleaning Challenge: Scale and Normalize Data | Kaggle
Day 3: Data Cleaning Challenge: Parsing Dates | Kaggle
Day 4: Data Cleaning Challenge: Character Encodings | Kaggle
Day 5: Data Cleaning Challenge: Inconsistent Data Entry | Kaggle

1. 缺失值处理

观察数据

# modules we'll use
import pandas as pd
import numpy as np

# read in all our data
nfl_data = pd.read_csv("../input/nflplaybyplay2009to2016/NFL Play by Play 2009-2017 (v4).csv")
sf_permits = pd.read_csv("../input/building-permit-applications-data/Building_Permits.csv")

# set seed for reproducibility
np.random.seed(0) 

# look at a few rows of the nfl_data file. I can see a handful of missing data already!
nfl_data.sample(5)

检查有多少缺失值

# get the number of missing data points per column
missing_values_count = nfl_data.isnull().sum()

# look at the # of missing points in the first ten columns
missing_values_count[0:

最低0.47元/天解锁文章

呆萌程小王

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

呆萌程小王 CSDN认证博客专家 CSDN认证企业博客

码龄9年

4: 原创

119万+: 周排名

198万+: 总排名

1万+: 访问

: 等级

206: 积分

7: 粉丝

3: 获赞

3: 评论

56: 收藏

私信

关注

分类专栏

Ubuntu 1篇
ssh 1篇
预处理
数据挖掘 2篇
机器学习 2篇
数据预处理 1篇
kaggle 1篇
mysql 1篇
神经网络 4篇

最新评论

Convolutional_LSTM论文阅读
qq_42768870: 链接打不开
Convolutional_LSTM论文阅读
普通网友: Convolution LSTM pytorch
XGBoost：在Python中使用XGBoost
lmw0320: 楼主，有几点不明（用惯了sklearn库，这个xgboost的做法和sklearn还有些不一样）： 1. xgboost也提供看sklearn的接口，那我是否可以和sklearn的模型训练做法一样，用train_test_split对数据进行切分，生成训练集和测试集的X和y，再用fit方法来训练模型？大致代码框架如下： [code=python] from xgboost.sklearn import XGBRegressor from sklearn.model_selection import train_test_split X = data[data.columns[2:]] y = data[data.columns[1]] X_train,X_test,y_train,y_test = train_test_split(X,y,random_state =1) xgb = XGBRegressor() xgb.fit(X_train,y_train) [/code] 但是该代码，会提示警告：FutureWarning: Series.base is deprecated and will be removed in a future version if getattr(data, 'base', None) is not None。不知道该如何解决？ 2. 关于xgboost的调参，应该一样可以使用网格搜索法来处理。我的做法还是和sklearn一样，同样会有上述的警告。。不知道这样的调参方法，是否合理？ 3. 如果用xgboost库自身的标准做法，貌似不是这样的。我看了你的文章，貌似的做法是： [code=python] import xgboost as xgb xgb_train =xgb.DMatrix(X_train,label=y_train) xgb_test = xgb.DMatrix(X_test,label=y_test) xgb0 = xgb.train() # 这里面的参数，我不知道如何传进去了。。 [/code] 求指点~~

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。