【python】Pandas库用法详解!

pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

一.pandas模块的安装

使用pip接口进行安装

pip install pandas

pip接口详细说明可以看:【python】之pip,Python 包管理工具详解!_pip 包管理_彭彭能呀的博客-CSDN博客

二、使用步骤

pandas的数据结构:

(1)Series:类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型,由索引(index)和列组成。

(2)DataFrame:是一个表格型的数据结构,每列可以是不同的值类型(数值,字符串,布尔型值),DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典。

1.先来看看Series:

import pandas as pd  ###导入pandas模块

pd.series(data,index,dtype,name,copy)

参数说明:

data:一组数据(ndarray类型)

index:数据索引标签,如果不指定,默认从0开始

dtype:数据类型,默认会自己判断

name:设置名称

copy:拷贝数据,默认伟False

(1)获取一列数据

import pandas as pd

x = [3,4,5,6,7,8,9]

pd.Series(x)

输出:

从0开始排列,dtype类型为int64。

(2)设置索引

import pandas as pd

x = [3,4,5,6]

pd.Series(x,index=['a','b','c','d'])

输出如下:

 

如上图1,设置索引对应列表数据,如图2直接获取a的值。

2. 接下来了解下DataFrame类型:

import pandas as pd

pd.DataFrame( data, index, columns, dtype, copy)

参数说明:

data:一组数据(ndarray、series, map, lists, dict 等类型)

index:数据索引标签,如果不指定,默认从0开始

columns:列索引

dtype:数据类型,默认会自己判断

copy:拷贝数据,默认伟False

(1).获取一组数据

import pandas as pd

data = {'name':['xx','zz','hh','aa'],
       'year':[2000,2001,2002,2003],
       'age':[15,16,17,18]}

a = pd.DataFrame(data)

print(a)

输出:

 输出表格型的数据结构。

(2).设置行、列索引

import pandas as pd

data = {'name':['xx','zz','hh','aa'],
       'year':[2000,2001,2002,2003],
       'age':[15,16,17,18]}

a = pd.DataFrame(data)

print(a)

pd1 = pd.DataFrame(data,columns=['name','year','age'],index=['a','b','c','d'])

pd1

输出:

 

(3). 获取指定列信息

import pandas as pd

data = {'name':['xx','zz','hh','aa'],
       'year':[2000,2001,2002,2003],
       'age':[15,16,17,18]}

a = pd.DataFrame(data)

print(a)

pd1 = pd.DataFrame(data,columns=['name','year','age'],index=['a','b','c','d'])

pd1

pd1[['year']]

输出:

(4).切片行数据

import pandas as pd

data = {'name':['xx','zz','hh','aa'],
       'year':[2000,2001,2002,2003],
       'age':[15,16,17,18]}

a = pd.DataFrame(data)

print(a)

pd1 = pd.DataFrame(data,columns=['name','year','age'],index=['a','b','c','d'])

pd1

pd1[:2]

输出:

(5).条件筛选,获取满足条件的行数据

import pandas as pd

data = {'name':['xx','zz','hh','aa'],
       'year':[2000,2001,2002,2003],
       'age':[15,16,17,18]}

a = pd.DataFrame(data)

print(a)

pd1 = pd.DataFrame(data,columns=['name','year','age'],index=['a','b','c','d'])

pd1

pd1[pd1['age']>15]

输出:

 筛选出年龄大于15的同学

(6).先筛选行,在筛选列

import pandas as pd

data = {'name':['xx','zz','hh','aa'],
       'year':[2000,2001,2002,2003],
       'age':[15,16,17,18]}

a = pd.DataFrame(data)

print(a)

pd1 = pd.DataFrame(data,columns=['name','year','age'],index=['a','b','c','d'])

pd1

pd1[:2][['name','year']]

输出:

(7).删除指定行

import pandas as pd

data = {'name':['xx','zz','hh','aa'],
       'year':[2000,2001,2002,2003],
       'age':[15,16,17,18]}

a = pd.DataFrame(data)

print(a)

pd1 = pd.DataFrame(data,columns=['name','year','age'],index=['a','b','c','d'])

pd1

data = pd1.drop(['a'])

print(data)

输出:

3.pandas文件读取和储存

 pandas支持的常用文件类型包括:HDF5,CSV,SQL,XLS,JSON等

(1)读取CSV文件数据

import pandas as pd

data = pd.read_csv(r"....\test.csv",encoding='gbk')

print(data)

 输出:

 (2)读取指定列数据

import pandas as pd

data = pd.read_csv(r"...\test.csv",usecols=['下限'],encoding='gbk')

print(data)

输出:

先写这么多....

@Neng

  • 2
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Pandas 是一个强大的数据分析工具,提供了很多常用的函数来处理数据,下面是一些常用的函数及其用法: 1. read_csv():读取 CSV 文件并返回一个 DataFrame 对象。 2. head():返回 DataFrame 的前几行数据,默认为前 5 行。 3. tail():返回 DataFrame 的后几行数据,默认为后 5 行。 4. info():返回 DataFrame 的基本信息,包括每列的数据类型、非空值数量等。 5. describe():返回 DataFrame 的基本统计信息,包括计数、均值、标准差、最小值、最大值等。 6. shape:返回 DataFrame 的行数和列数。 7. columns:返回 DataFrame 的列名。 8. index:返回 DataFrame 的行索引。 9. loc[]:根据行标签和列标签访问 DataFrame 中的元素。 10. iloc[]:根据行索引和列索引访问 DataFrame 中的元素。 11. dropna():删除 DataFrame 中的缺失值。 12. fillna():用指定的值或方法填充 DataFrame 中的缺失值。 13. groupby():按照指定的列对 DataFrame 进行分组。 14. apply():对 DataFrame 的每一列应用指定的函数。 15. pivot_table():根据指定的列计算 DataFrame 的透视表。 16. merge():将两个 DataFrame 按照指定的列进行合并。 17. sort_values():按照指定的列对 DataFrame 进行排序。 18. drop_duplicates():去除 DataFrame 中的重复行。 19. value_counts():统计 DataFrame 中每个元素出现的次数。 20. isnull():判断 DataFrame 中的元素是否为空值。 这些函数覆盖了 Pandas 中的很多常用操作,掌握它们对于数据分析和处理非常有帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

==PP

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值