pandas数据分析入门

最新推荐文章于 2024-07-17 12:04:45 发布

一只速度很快的乌龟

最新推荐文章于 2024-07-17 12:04:45 发布

阅读量307

点赞数 1

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/qq_18273133/article/details/87988931

版权

数据分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

pandas数据分析入门

本文以美国共享单车的数据为例，使用pandas对数据进行相关的探索和分析，同时可以了解一些pandas的简单统计函数如取平均值，众数，时间类型处理等。

数据集

数据是下载了网上关于美国共享单车数据，包含了芝加哥、纽约、华盛顿三个城市共享单车的数据，涉及字段如下：

起始时间 Start Time (str类型:yyyy-MM-dd HH:mm:ss)

结束时间 End Time (str类型:yyyy-MM-dd HH:mm:ss)

骑行时长 Trip Duration(int类型，秒)

起始车站 Start Station（例如百老汇街和巴里大道）

结束车站 End Station（例如塞奇威克街和北大道）

用户类型 User Type（订阅者Subscriber/Registered 或客户Customer/Casual）

性别 Gender (Male,Female)

出生年份 Birth Year

问题

当得到一份数据要对其进行分析，就会针对分析的主题提出一些问题，从中获得一些分析结论。针对共享单车分析

提了一下问题：（ps：问题是我copy的）

1）起始时间（Start Time 列）中哪个月份最常见？

2）起始时间中，一周的哪一天（比如 Monday, Tuesday）最常见？

3）起始时间中，一天当中哪个小时最常见？

4）总骑行时长（Trip Duration）是多久，平均骑行时长是多久？

5）哪个起始车站（Start Station）最热门，哪个结束车站（End Station）最热门？

6）哪一趟行程最热门（即，哪一个起始站点与结束站点的组合最热门）？

7）每种用户类型有多少人？

8）每种性别有多少人？

9）出生年份最早的是哪一年、最晚的是哪一年，最常见的是哪一年？

数据分析

导入相关的包

import numpy as np

import pandas as pd

import matplotlib as plt

CITY_DATA={'chicago':'chicago.csv',

'new_york':'new_york_city.csv',

'washington':'washington.csv'}

读取数据

def read_file(city_name):
    data=pd.read_csv(CITY_DATA[city_name])
    return data,city_name

为了回答上面的问题，定义几个自定义的函数：

1. time_stats()回答