系列文章目录
Python数据分析之Numpy_阿如村保安的博客-CSDN博客
python数据分析之Panads-1(基本介绍)_阿如村保安的博客-CSDN博客
目录
前言
此文继续pandas学习笔记。
一、数据格式转换
在做数据分析的时候,原始数据往往会因为各种各样的原因产生各种数据格式的问题。数据格式是我们非常需要注意的一点,数据格式错误往往会造成很严重的后果。
并且,很多异常值也是我们经过格式转换后才会发现,对我们规整数据,清洗数据有着重要的作用。
首先打开数据文件movie_data.xlsx
查看格式
格式转换
将年份转化为整数格式
找到异常
修改
二、排序
按照投票人数进行排序
多个值排序,先按照评分,再按照投票人数
三、基本统计分析
( 1 )描述性统计
dataframe.describe():对dataframe中的数值型数据进行描述性统计
通过描述性统计,可以发现一些异常值,很多异常值往往是需要我们逐步去发现的。
( 2 )最值
( 3 )均值和中值
( 4 )方差和标准差
( 5 )求和
( 6 )相关系数和协方差
( 7 )计数
数据替换
我们可以通过数据替换的方法将这些相同国家的电影数据合并一下。
计算每一年电影的数量:
四、数据透视
Excel中数据透视表的使用非常广泛,其实Pandas也提供了一个类似的功能,名为pivot_table。
pivot_table非常有用,我们将重点解释pandas中的函数pivot_table。
使用pandas中的pivot_table的一个挑战是,你需要确保你理解你的数据,并清楚地知道你想通过透视表解决什么问题。虽然pivot_table看起来只是一个简单的函数,但是它能够快速地对数据进行强大的分析。
1、基础形式
2、也可以有多个索引。实际上,大多数的pivot_table参数可以通过列表获取多个值。
3、也可以指定需要统计汇总的数据
4、还可以指定函数,来统计不同的统计值
通过将“投票人数”列和“评分”列进行对应分组,对“产地”实现数据聚合和总结。
5、非数值(NaN)难以处理。如果想移除它们,可以使用“fill_value”将其设置为0。
6、加入margins = True,可以在下方显示一些总和数据。
7、对不同值执行不同的函数:可以向aggfunc传递一个字典。不过,这样做有一个副作用,那就是必须将标签做的更加整洁才行。
总结
以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。