数据分析之数据准备（1-3）

最新推荐文章于 2024-01-09 16:57:58 发布

running+snail

最新推荐文章于 2024-01-09 16:57:58 发布

阅读量487

点赞数

分类专栏： python 文章标签： python 数据分析机器学习

本文链接：https://blog.csdn.net/qq_45626019/article/details/108074607

版权

承接数据分析之数据探索
https://blog.csdn.net/qq_45626019/article/details/108074152

import pandas as pd
import numpy as np
housing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")
#按照收入类别进行分层抽样
housing["income_cat"]=np.ceil(housing["median_income"]/1.5)
housing["income_cat"].where(housing["income_cat"]<5,5.0,inplace=True)

from sklearn.model_selection import StratifiedShuffleSplit
ss=StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=42)
for train_index,test_index in ss.split(housing,housing["income_cat"]):
	strat_train_set=housing.iloc[train_index]
	strat_test_set=housing.iloc[test_index]

#回到干净数据集，划分目标和特征属性（标签-对应数据）

housing=strat_train_set.drop("median_house_value",axis=1)
housing_label=strat_train_set['median_house_value'].copy()

在第一部分我们已经注意到有部分缺失数据，为适应机器学习算法，我们需要对缺失数据进行删除。
①放弃相应缺失数据

housing.dropna(subset

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

running+snail

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析之数据准备（1-3）

承接数据分析之数据探索https://blog.csdn.net/qq_45626019/article/details/108074152import pandas as pdimport numpy as nphousing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")#按照收入类别进行分层抽样housing["income_cat"]=np.ceil(housing["median_income"]/1.5)housing["in
复制链接

扫一扫