机器学习项目：房价预测

最新推荐文章于 2024-04-29 08:50:44 发布

From Star.

最新推荐文章于 2024-04-29 08:50:44 发布

阅读量869

点赞数 2

分类专栏：机器学习文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/qq_51283283/article/details/115605441

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

XGBoost回归预测

import pandas as pd
from sklearn.model_selection import train_test_split # 导入数据分割函数库
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_absolute_error # 导入误差计算函数库
from sklearn.impute import SimpleImputer # 导入简单插补函数库
from xgboost import XGBRegressor
from sklearn.ensemble import RandomForestRegressor # 导入随机森林模型
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# 导入数据
melbourne_file_path = r"D:\xio习\python\python数据分析\案例\房价预测\melbourne-housing-snapshot\melb_data.csv"
data = pd.read_csv(melbourne_file_path)

y = data.Price
X = data.drop(['Price'], axis=1)

# 分割数据为训练集和测试集
X_train_full, X_valid_full, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

# 筛选基数低的类别列
categorical_cols = [cname for cname in X_train_full.columns 
                        if X_train_full[cname].nunique() < 10 and 
                        X_train_full[cname].dtype == "object"]

# 筛选数值列
numerical_cols = [cname for cname in X_train_full.columns if X_train_full[cname].dtype in ['int64', 'float64']]

# 只保留选中的列
my_cols = categorical_cols + numerical_cols
X_train = X_train_full[my_cols].copy()
X_valid = X_valid_full[my_cols].copy()

##### 定义预处理步骤
# 处理数值数据
numerical_transformer = SimpleImputer(strategy='constant')

# 处理分类变量
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
    ])

# 对数值和分类变量进行捆绑预处理
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])

##### 定义模型
model = XGBRegressor(n_estimators=870, learning_rate=0.05,  n_jobs=4) # 修改参数以提高模型准确度

##### 创建并评估管道
# 在管道中捆绑预处理和建模代码
my_pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                              ('model', model)
                             ])

# 应用管道
my_pipeline.fit(X_train, y_train)

preds = my_pipeline.predict(X_valid)

# 交叉验证评估模型
scores = -1 * cross_val_score(my_pipeline, X, y,
                              cv=5,
                              scoring='neg_mean_absolute_error')

print("MAE scores:\n", scores)

print("Average MAE score (across experiments):")
print(scores.mean())

运行结果

From Star.

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习项目：房价预测

XGBoost回归预测import pandas as pdfrom sklearn.model_selection import train_test_split # 导入数据分割函数库from sklearn.model_selection import cross_val_scorefrom sklearn.metrics import mean_absolute_error # 导入误差计算函数库from sklearn.impute import SimpleImputer # 导入.
复制链接

扫一扫