头歌共享单车大数据项目数据分析

在下小秦

已于 2022-06-26 22:18:19 修改

阅读量3.3k

点赞数 3

分类专栏： Python 机器学习与数据挖掘文章标签：大数据数据分析 python

于 2022-06-26 21:52:11 首次发布

本文链接：https://blog.csdn.net/possible999/article/details/125474953

版权

Python 同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

机器学习与数据挖掘

5 篇文章 0 订阅

订阅专栏

第一关：数据探索与可视化

import pandas as pd  
import matplotlib  
matplotlib.use('Agg')  
import matplotlib.pyplot as plt  
#********* Begin *********#  
import pandas as pd  
import matplotlib.pyplot as plt
train_df = pd.read_csv('./step1/bike_train.csv')  
train_df['hour'] = train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')  
group_hour=train_df.groupby(train_df.hour)  
hour_mean=group_hour[['count','registered','casual']].mean()  
fig=plt.figure(figsize=(10,10))  
plt.plot(hour_mean['count'])
plt.title('average count per hour')  
plt.savefig('./step1/result/plot.png')  
#********* End *********#

第二关：特征工程

import pandas as pd  
import numpy as np  
from datetime import datetime
def transform_data(train_df):  
    '''  
    将train_df中的datetime划分成year、month、date、weekday  
    :param train_df:从bike_train.csv中读取的DataFrame  
    :return:无  
    '''
    #********* Begin *********#  
    train_df['date'] = train_df.datetime.apply(lambda x: x.split()[0])  
    train_df['hour'] = train_df.datetime.apply(lambda x: x.split()[1].split(':')[0]).astype('int')  
    train_df['year'] = train_df.datetime.apply(lambda x: x.split()[0].split('-')[0]).astype('int')  
    train_df['month'] = train_df.datetime.apply(lambda x: x.split()[0].split('-')[1]).astype('int')  
    train_df['weekday'] = train_df.date.apply(lambda x: datetime.strptime(x, '%Y-%m-%d').isoweekday())
    return train_df  
    #********* End **********#

第三关：租赁需求预估

#********* Begin *********#  
import pandas as pd  
import numpy as np  
from datetime import datetime  
from sklearn.linear_model import Ridge
train_df = pd.read_csv('./step3/bike_train.csv')
# 舍弃掉异常count  
train_df=train_df[np.abs(train_df['count']-train_df['count'].mean())<=3*train_df['count'].std()]
# 训练集的时间数据处理
train_df['date']=train_df.datetime.apply(lambda x:x.split()[0])  
train_df['hour']=train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')  
train_df['year']=train_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')  
train_df['month']=train_df.datetime.apply(lambda x:x.split()[0].split('-')[1]).astype('int')  
train_df['weekday']=train_df.date.apply( lambda x : datetime.strptime(x,'%Y-%m-%d').isoweekday())
# 独热编码  
train_df_back=train_df  
dummies_month = pd.get_dummies(train_df['month'], prefix='month')  
dummies_year = pd.get_dummies(train_df['year'], prefix='year')  
dummies_season = pd.get_dummies(train_df['season'], prefix='season')  
dummies_weather = pd.get_dummies(train_df['weather'], prefix='weather')
train_df_back = pd.concat([train_df, dummies_month,dummies_year, dummies_season,dummies_weather], axis = 1)
train_label = train_df_back['count']  
train_df_back = train_df_back.drop(['datetime', 'season', 'weather', 'atemp', 'date', 'month', 'count'], axis=1)
test_df = pd.read_csv('./step3/bike_test.csv')
# 测试集的时间数据处理  
test_df['date']=test_df.datetime.apply(lambda x:x.split()[0])  
test_df['hour']=test_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')  
test_df['year']=test_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')  
test_df['month']=test_df.datetime.apply(lambda x:x.split()[0].split('-')[1]).astype('int')  
test_df['weekday']=test_df.date.apply( lambda x : datetime.strptime(x,'%Y-%m-%d').isoweekday())
# 独热编码
test_df_back=test_df  
dummies_month = pd.get_dummies(test_df['month'], prefix='month')  
dummies_year = pd.get_dummies(test_df['year'], prefix='year')  
dummies_season = pd.get_dummies(test_df['season'], prefix='season')  
dummies_weather = pd.get_dummies(test_df['weather'], prefix='weather')
test_df_back = pd.concat([test_df, dummies_month,dummies_year, dummies_season,dummies_weather], axis = 1)  
test_df_back = test_df_back.drop(['datetime', 'season', 'weather', 'atemp', 'date', 'month'], axis=1)
clf = Ridge(alpha=1.0)
# 训练  
clf.fit(train_df_back, train_label)  
# 预测  
count = clf.predict(test_df_back)
# 保存结果  
result = pd.DataFrame({'datetime':test_df['datetime'], 'count':count})  
result.to_csv('./step3/result.csv', index=False)  
#********* End *********#