Python数据分析之Pandas-2

系列文章目录

python数据分析之前奏_阿如村保安的博客-CSDN博客

Python数据分析之Numpy_阿如村保安的博客-CSDN博客

python数据分析之Panads-1(基本介绍)_阿如村保安的博客-CSDN博客


目录

系列文章目录

前言

一、数据格式转换

查看格式

格式转换

二、排序

三、基本统计分析

( 1 )描述性统计

( 2 )最值

( 3 )均值和中值

( 4 )方差和标准差

( 5 )求和

( 6 )相关系数和协方差

( 7 )计数

数据替换

四、数据透视

总结


前言

此文继续pandas学习笔记。


一、数据格式转换

在做数据分析的时候,原始数据往往会因为各种各样的原因产生各种数据格式的问题。数据格式是我们非常需要注意的一点,数据格式错误往往会造成很严重的后果。
并且,很多异常值也是我们经过格式转换后才会发现,对我们规整数据,清洗数据有着重要的作用。

首先打开数据文件movie_data.xlsx

查看格式

格式转换

将年份转化为整数格式

找到异常

修改

二、排序

按照投票人数进行排序

多个值排序,先按照评分,再按照投票人数

三、基本统计分析

( 1 )描述性统计

dataframe.describe():对dataframe中的数值型数据进行描述性统计

通过描述性统计,可以发现一些异常值,很多异常值往往是需要我们逐步去发现的。

( 2 )最值

( 3 )均值和中值

( 4 )方差和标准差

( 5 )求和

( 6 )相关系数和协方差

( 7 )计数

数据替换

我们可以通过数据替换的方法将这些相同国家的电影数据合并一下。

计算每一年电影的数量:

四、数据透视

Excel中数据透视表的使用非常广泛,其实Pandas也提供了一个类似的功能,名为pivot_table。

pivot_table非常有用,我们将重点解释pandas中的函数pivot_table。

使用pandas中的pivot_table的一个挑战是,你需要确保你理解你的数据,并清楚地知道你想通过透视表解决什么问题。虽然pivot_table看起来只是一个简单的函数,但是它能够快速地对数据进行强大的分析。

1、基础形式

2、也可以有多个索引。实际上,大多数的pivot_table参数可以通过列表获取多个值。

3、也可以指定需要统计汇总的数据

4、还可以指定函数,来统计不同的统计值

通过将“投票人数”列和“评分”列进行对应分组,对“产地”实现数据聚合和总结。

5、非数值(NaN)难以处理。如果想移除它们,可以使用“fill_value”将其设置为0。

6、加入margins = True,可以在下方显示一些总和数据。

7、对不同值执行不同的函数:可以向aggfunc传递一个字典。不过,这样做有一个副作用,那就是必须将标签做的更加整洁才行。


总结

以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值