实用机器学习(hw1/hw4)

本文介绍了实用机器学习的环境安装、基线代码分析及如何提升模型精度。通过增加数据量、特征工程、数据清洗等步骤,将精度从基线逐步提高到0.0483。使用了包括LightGBM在内的多种机器学习模型进行比较。
摘要由CSDN通过智能技术生成

实用机器学习(hw1/hw4)

1. 环境安装

autogluon

2. baseline 代码分析

import pandas as pd
import numpy as np
import scipy
# https://auto.gluon.ai/stable/index.html#installation
from autogluon.tabular import TabularPredictor

# 读取数据4  WeightedEnsemble_L2   -0.265
data = pd.read_feather('house_sales.ftr')
df = data[['Sold Price', 'Sold On', 'Type', 'Year built', 'Bedrooms', 'Bathrooms']].copy()

# 使用EDA转换售价为数值,消除价格太高或者太低的时候
# print(df.head(20))
# print(df.dtypes)
c = 'Sold Price'
# 转换售价从object类型为float类型
if c in df.select_dtypes('object').columns:
    df.loc[:, c] = np.log10(
        pd.to_numeric(df[c].replace(r'[$,-]', '', regex=True)) + 1    
    )
# print(df.head(20))
# 售价控制区间为4~8
df = df[(df['Sold Price'] >= 4) & (df['Sold Price'] <= 8)]
# test = np.log10(2000001)
# print(test)
# print(df.head(20))
# print(df.dtypes)
# 使用2021-2-15~2021-3-1的数据作为测试数据
# 训练数据可以使用2021年之前的

# 根据时间戳分割训练数据集和测试数据集
test_start, test_end = pd.Timestamp(2021, 2, 15), pd.Timestamp(2021, 3, 1)
train_start = pd.Timestamp(2021, 1, 1)
df['Sold On'] = pd.to_datetime(df['Sold On'], errors='coerce')
train = df[(df['Sold On'] >= train_start) & (df['Sold On'] < test_start)]
test = df[(df['Sold On'] >= test_start) & (df['Sold On'] < test_end)]
# train.shape:  (24872, 6) tesr.shape:  (11510, 6)
print</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

纷繁中淡定

你的鼓励是我装逼的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值