机器学习之共享单车使用量项目设计

本文通过一个共享单车使用量的项目,展示了机器学习的数据预处理、特征工程和模型训练过程。首先,从UCI数据集下载数据,然后分析并清洗数据,包括删除无用列、进行独热编码和特征缩放。接着,进行多项式扩展以提高模型拟合,并分割数据集进行训练和测试。最后,通过比较不同模型的效果,强调了数据处理在模型性能中的关键作用。
摘要由CSDN通过智能技术生成

数据来源

数据下载 http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset
在这里插入图片描述

项目分析

  • 我们需要对数据进行思考,然后删除对建模没有作用的列,比如样本序号
  • 删除相关性很强的列,比如季度和月份,我在这里的做法是保留月份,删除季度
  • 对离散特征进行独热编码(独热编码后删除原来的列)
  • 对连续性特征进行特征缩放
  • 对连续性特征进行多项式扩展(为了模型拟合的更好)
  • 拼接合并所有特征
  • 提取特征和标签
  • 切分数据集为训练集和测试集
  • 训练模型(多选几个模型,看哪个效果更佳)

代码如下:

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder,PolynomialFeatures,StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression,Ridge
from sklearn.metrics import mean_absolute_error,mean_squared_error
path = "datas/hour.csv"
df = pd.read_csv(path)
## 删除无用的列
df.drop(columns=["instant",
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值