数据分析之数据探索（1-2）

最新推荐文章于 2024-03-29 10:35:09 发布

running+snail

最新推荐文章于 2024-03-29 10:35:09 发布

阅读量352

点赞数

分类专栏： python 文章标签：数据分析机器学习 python

本文链接：https://blog.csdn.net/qq_45626019/article/details/108074152

版权

本文分析了房屋价格与地理位置和人口之间的紧密联系，通过数据探索揭示房价中位数与收入中位数存在显著正相关，同时发现部分异常数据点。文章基于机器学习实战，探讨了数据集的划分及其作用，并使用了Scikit-Learn库进行相关性研究。

摘要由CSDN通过智能技术生成

承接-数据分析之测试集划分https://blog.csdn.net/qq_45626019/article/details/108060392
导入数据

import pandas as pd
housing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")
#按照收入类别进行分层抽样
housing["income_cat"]=np.ceil(housing["median_income"]/1.5)
housing["income_cat"].where(housing["income_cat"]<5,5.0,inplace=True)

from sklearn.model_selection import StratifiedShuffleSplit
ss=StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=42)
for train_index,test_index in ss.split(housing,housing["income_cat"]):
	strat_train_set=housing.iloc[train_index]
	strat_test_set=housing.iloc[test_index]

print(housing['income_cat'].value_counts()/len