python机器学习——加州房价
跟随kaggle课程练习
学习内容:
L3:
1、 选择建模数据
# 数据经度、纬度、住房年龄中位、一个街区内的总房屋数、一个街区内的总卧室数、
# 人口、家庭总数、收入中位数、房屋价值中位数、是否近海
# 一个街区内的总卧室数有部分缺失值
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
house_file_path = 'Datasets\California Housing Prices\housing.csv'
house_data = pd.read_csv(house_file_path)
2、 处理缺失值
filtered_house_data = house_data.dropna(axis=0)
# 过滤有缺失值的行
3、 选择预测目标
house_predict = ['median_house_value']
y = filtered_house_data[house_predict] # 将房屋价格中位数设置为预测目标y
4、 选择特征
house_features = ['housing_median_age','total_rooms','total_bedrooms','population','households','median_income&#