【数据分析】共享单车数据的处理

最新推荐文章于 2023-02-23 08:30:00 发布

蠢萌蠢萌的大兔子

最新推荐文章于 2023-02-23 08:30:00 发布

阅读量539

点赞数

分类专栏：练习日常文章标签：数据分析 python 机器学习

本文链接：https://blog.csdn.net/qq_35928550/article/details/126972418

版权

练习日常专栏收录该内容

4 篇文章 0 订阅

订阅专栏

日常练习，题目如下：

1.读取train数据集

2.查看前5条数据2.查看数据信息3.查看数据分布"
3."切分训练集和测试集，并且增加一列 trainortest ，来区分每条数据是属于训练集还是测试集合，然后合并"
4.切分datetime列 2011-01-01 00:00:00，新增日期列 date列例如2012-06-09
5.新增小时列，例如datetime列 ""2011-01-01 00:14:00""中的14"
6.月份属性列进行频数统计
7."统计不同小时，用车的总数量 1.根据小时进行分组
8.使用分组对象的聚合函数进行组内求和，得到的是数据帧(组内所有属性求和)
9.取出求和数据帧中的 count求和列，作为一个系列series
10.绘制以上系列对象的折线图
11.根据上图将 hour 可以分为几个时间段 hour_section列
12.先获取部分属性 ["temp","atemp","casual","registered","humidity","windspeed","count"]，构造一个数据帧对象df2
13.使用df2对象的自带方法生成皮尔逊相关系数矩阵df3，对df3绘制热力图并且展示

导包：

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn
import datetime
from sklearn.model_selection import train_test_split

题目实现：

# (8) 读取train数据集
df = pd.read_csv('train.csv')
# (9) "数据检视
# #1.查看前5条数据2.查看数据信息3.查看数据分布"
print(df.head())
df.info()
print(df.describe())
# (10) "切分 训练集和 测试集，并且增加一列 trainortest ，
# 来区分每条数据 是 属于训练集 还是测试集合，然后合并"
data_tr, data_te = train_test_split(df, test_size=0.25)
data_tr['trainortest'] = '训练集'
data_te['trainortest'] = '测试集'
df = pd.concat([data_tr, data_te])
# (11) 切分datetime列 2011-01-01 00:00:00，新增 日期列  date列 例如2012-06-09
import datetime


def month_section(x):
    daboj = datetime.datetime.fromisoformat(x)
    return daboj.month


def day_section(x):
    daboj = datetime.datetime.fromisoformat(x)
    return daboj.day


def hour_section(x):
    daboj = datetime.datetime.fromisoformat(x)
    return daboj.hour


def date_set(x):
    daboj = datetime.datetime.fromisoformat(x)
    year = daboj.year
    month = daboj.month
    day = daboj.day
    return f'{year}-{month}-{day}'


df['date'] = df['datetime'].apply(date_set)
# (12) 新增 小时 列，例如datetime列 ""2011-01-01 00:14:00""中的14"
df['hour_section'] = df['datetime'].apply(hour_section)
# (13) 月份 属性列 进行频数统计
df['month_section'] = df['datetime'].apply(month_section)
print(df['month_section'].value_counts())
# (14) "统计 不同小时，用车的总数量 1.根据小时 进行分组
data_hc = df.groupby(by=['hour_section'])
# (15) 2.使用分组对象的 聚合函数 进行 组内求和，得到的是 数据帧(组内 所有 属性求和)
data_hc_sum = data_hc.agg(numpy.sum)
# (16) 3.取出 求和 数据帧中的 count求和列，作为一个系列series
data_hc_sum_reset_index = data_hc_sum.reset_index()
# print(data_hc_sum_reset_index)
print(df['count'])
# (17) 4.绘制以上系列对象的折线图
seaborn.lineplot(data=data_hc_sum_reset_index,x='hour_section',y='count')
plt.show()


# (18) 根据上图 将 hour 可以分为 几个 时间段 hour_section列
def hour_set(x):
    if 6 <= x <= 9:
        return '早高峰'
    elif 11 <= x <= 13:
        return '午高峰'
    elif 17 <= x <= 21:
        return '晚高峰'
    else:
        return '低谷'


df['hour_section'] = df['hour_section'].apply(hour_set)
# (19) 先获取 部分属性 ["temp","atemp","casual","registered","humidity","windspeed","count"]，
# 构造一个数据帧对象df2
get_list = ["temp", "atemp", "casual", "registered", "humidity", "windspeed", "count"]
df2 = df.loc[:, get_list]
# (20) 使用df2对象的自带方法生成皮尔逊相关系数矩阵df3，对df3绘制热力图并且展示
df3 = df2.corr()
seaborn.heatmap(data=df3,annot=True)
plt.show()

蠢萌蠢萌的大兔子

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【数据分析】共享单车数据的处理

12.先获取部分属性 ["temp","atemp","casual","registered","humidity","windspeed","count"]，构造一个数据帧对象df2。3."切分训练集和测试集，并且增加一列 trainortest ，来区分每条数据是属于训练集还是测试集合，然后合并"5.新增小时列，例如datetime列 ""2011-01-01 00:14:00""中的14"8.使用分组对象的聚合函数进行组内求和，得到的是数据帧(组内所有属性求和)
复制链接

扫一扫