数据分析之数据准备(1-3)

承接数据分析之数据探索
https://blog.csdn.net/qq_45626019/article/details/108074152

import pandas as pd
import numpy as np
housing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")
#按照收入类别进行分层抽样
housing["income_cat"]=np.ceil(housing["median_income"]/1.5)
housing["income_cat"].where(housing["income_cat"]<5,5.0,inplace=True)

from sklearn.model_selection import StratifiedShuffleSplit
ss=StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=42)
for train_index,test_index in ss.split(housing,housing["income_cat"]):
	strat_train_set=housing.iloc[train_index]
	strat_test_set=housing.iloc[test_index]

#回到干净数据集,划分目标和特征属性(标签-对应数据)

housing=strat_train_set.drop("median_house_value",axis=1)
housing_label=strat_train_set['median_house_value'].copy()

在第一部分我们已经注意到有部分缺失数据,为适应机器学习算法,我们需要对缺失数据进行删除。
①放弃相应缺失数据

housing.dropna(subset
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值