pandas基本介绍

Pandas介绍

Pandas 是 Python 语言的一个扩展程序库,用于数据分析。
Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。
Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。
Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。
Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征

数据结构

Series 是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。
DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

Pandas 应用

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。


'''pandas基本介绍'''
'''
如果把numpy比作列表的话,pandas更像是字典形式的numpy
'''
'''
定义DataFrame的两种方式:
1.直接导入字典
2.导入自动生成的
'''
import numpy as np
import pandas as pd

s = pd.Series([1, 2, 3, 33, np.nan, 44, 1])  # 序列他比列表多了一个index
print("# 会生成两列,一列是index,一列是数组的值:\n", s, end="\n\n")

# date_range()是pandas中常用的函数,用于生成一个固定频率的DatetimeIndex时间索引。原型:
# date_range(start=None, end=None, periods=None)

datas = pd.date_range('20190101', periods=7)
print("# periods=7,说明会生成7个时间,开始时间为20190101:\n",datas,end="\n\n")
# 使用DataFrame创建表格 index默认行索引,columns默认列索引
df = pd.DataFrame(np.random.randn(7, 4), index=datas, columns=['a', 'b', 'c', 'd'])
print("# 使用DataFrame创建表格 index默认行索引,columns默认列索引:\n",df,end="\n\n")
'''
           |       a         b         c         d
--------------------------------------------------       
datas      |
           |       a         b         c         d
2019-01-01  1.390443  0.943523 -0.250015 -0.937293
2019-01-02  0.478537  0.891622 -0.009471  0.772718
2019-01-03 -0.620127 -1.297744  0.352404 -1.449165
2019-01-04 -0.002273  1.373092 -0.290291 -0.153854
2019-01-05 -1.335555  0.107416 -0.166542  0.913456
2019-01-06 -0.648300 -2.056751 -1.879867  0.850983
2019-01-07  0.295561  0.214722  0.222594  1.474603
'''

'''如果没有给行列的索引,就会默认0,1,2.....作为行列索引'''
# df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
# print(df1)
#
# df2 = pd.DataFrame({'A': 1.,
#                     'B': pd.date_range('20190101', periods=4),                   # pd.Timestamp('20130102')
#                     'C': pd.Series(1,index=list(range(4)),dtype='float32'),
#                     'D': np.array([3]*4,dtype='int32'),
#                     'E': pd.Categorical(["test", "train", "test", "train"]),
#                     'F': 'foo'})
# print(df2)
# '''
#      A          B    C  D      E    F
# 0  1.0 2019-01-01  1.0  3   test  foo
# 1  1.0 2019-01-02  1.0  3  train  foo
# 2  1.0 2019-01-03  1.0  3   test  foo
# 3  1.0 2019-01-04  1.0  3  train  foo
# '''
# print(df2.dtypes)
# print(df2.columns)
# print(df2.values)
# print(df2.describe())                   # 数据帧描述
# print(df1.T)
# print(df2.sort_index(axis=1, ascending=False))          # ascending = False 表示倒叙输出,axis = 1表示按照列输出
# print(df2.sort_index(axis=0, ascending=False))          # ascending = False 表示倒叙输出,axis = 1表示按照列输出
# print(df2.sort_values(by = 'E'))                        # 'sort_values(by = '排序规则')'按照E中的值进行排序

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pandas是一个强大的数据处理和分析库,它提供了许多基本操作来处理和操作数据。下面是一些pandas基本操作的介绍。 1. 数据读取:Pandas可以从不同的数据源读取数据,如CSV文件、Excel文件、数据库等。使用pandas的read_csv()、read_excel()、read_sql()等函数可以方便地读取数据。 2. 数据查看:使用head()函数可以查看数据的前几行,默认是显示前5行。如果想要查看更多行数,可以在函数中传入具体的行数。 3. 数据选择:Pandas提供了许多方法来选择需要的数据。使用方括号[]可以选择一列数据,使用loc[]可以选择指定的行和列,使用iloc[]可以通过行号和列号来选择数据。 4. 数据过滤:通过条件筛选数据是数据分析中常用的操作。使用布尔数组可以对满足条件的数据进行过滤,例如df[df['列名'] > 10]可以筛选出某一列中大于10的数据。 5. 数据排序:使用sort_values()函数可以实现对数据进行排序,默认是按升序排列。可以通过传入参数ascending=False来实现降序排序。 6. 数据统计:Pandas提供了许多统计函数可以对数据进行统计分析,如mean()计算均值、sum()计算总和、max()计算最大值等。这些函数可以对整个数据集进行统计,也可以对某一列或某一行进行统计。 7. 数据处理:Pandas中还提供了许多数据处理的函数和方法,如drop_duplicates()用于删除重复数据、fillna()用于填补缺失值、replace()用于替换数据等。 总而言之,Pandas提供了丰富的基本操作函数和方法,可以方便地进行数据处理和分析。上述介绍的只是其中的一部分,还有许多其他的功能可以在实际使用中灵活运用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值