pandas 1 基本介绍

pandas 1 基本介绍

import numpy as np
import pandas as pd

pd.Series() 构造数据

s = pd.Series([1, 3, 5, np.nan, 44, 1])

print(s)

# 0     1.0
# 1     3.0
# 2     5.0
# 3     NaN
# 4    44.0
# 5     1.0
# dtype: float64

pd.date_range() 生成数据

dates = pd.date_range('20190225', periods=2)

print(dates)  

# DatetimeIndex(['2019-02-25', '2019-02-26'], dtype='datetime64[ns]', freq='D')

pd.DataFrame() 构造数据

df = pd.DataFrame(np.random.randn(2, 4), index=dates, columns=['a', 'b', 'c', 'd'])

print(df)

#                    a         b         c         d
# 2019-02-25  1.236639 -0.918432 -0.211460  1.834082
# 2019-02-26  1.191895 -1.680464  0.863866  0.171246

pd.DataFrame() 构造数据

df1 = pd.DataFrame(np.arange(12).reshape(3, 4)

print(df1)

#    0  1   2   3
# 0  0  1   2   3
# 1  4  5   6   7
# 2  8  9  10  11

pd.DataFrame() 构造数据

df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20130102'),
                    'C': pd.Series(1, index=list(range(5)), dtype='float32'),
                    'D': np.array([3] * 5, dtype='int32'),
                    'E': pd.Categorical(["test", "train", "test", "train", 'yzn']),
                    'F': 'foo'})
                    
print(df2)

#      A          B    C  D      E    F
# 0  1.0 2013-01-02  1.0  3   test  foo
# 1  1.0 2013-01-02  1.0  3  train  foo
# 2  1.0 2013-01-02  1.0  3   test  foo
# 3  1.0 2013-01-02  1.0  3  train  foo
# 4  1.0 2013-01-02  1.0  3    yzn  foo

属性 df2.dtypes df2.index df2.columns

df2.values df2.describe() df2.T

df.sort_index(axis=1, ascending=False) df2.sort_values(by='E')

print(df2.dtypes)

# A           float64
# B    datetime64[ns]
# C           float32
# D             int32
# E          category
# F            object
# dtype: object

print(df2.index)

# Int64Index([0, 1, 2, 3, 4], dtype='int64')
print(df2.columns)

# Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')
print(df2.values)

# [[1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
#  [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']
#  [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'test' 'foo']
#  [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'train' 'foo']
#  [1.0 Timestamp('2013-01-02 00:00:00') 1.0 3 'yzn' 'foo']]
print(df2.describe())

#          A    C    D
# count  5.0  5.0  5.0
# mean   1.0  1.0  3.0
# std    0.0  0.0  0.0
# min    1.0  1.0  3.0
# 25%    1.0  1.0  3.0
# 50%    1.0  1.0  3.0
# 75%    1.0  1.0  3.0
# max    1.0  1.0  3.0

print(df2.T)

#                      0  ...                    4
# A                    1  ...                    1
# B  2013-01-02 00:00:00  ...  2013-01-02 00:00:00
# C                    1  ...                    1
# D                    3  ...                    3
# E                 test  ...                  yzn
# F                  foo  ...                  foo
# [6 rows x 5 columns]

print(df.sort_index(axis=1, ascending=False))

#                    d         c         b         a
# 2019-02-25 -0.086707  0.388089  0.513976 -0.148502
# 2019-02-26 -0.237655 -0.799583 -1.722373  0.318766

print(df.sort_index(axis=0, ascending=False))

#                    a         b         c         d
# 2019-02-26 -2.117756  0.453841 -2.900436  1.061481
# 2019-02-25 -0.974467  0.598005 -0.552265 -2.487490

print(df2.sort_values(by='E'))

#      A          B    C  D      E    F
# 0  1.0 2013-01-02  1.0  3   test  foo
# 2  1.0 2013-01-02  1.0  3   test  foo
# 1  1.0 2013-01-02  1.0  3  train  foo
# 3  1.0 2013-01-02  1.0  3  train  foo
# 4  1.0 2013-01-02  1.0  3    yzn  foo

END

posted @ 2019-02-26 14:55 YangZhaonan 阅读(...) 评论(...) 编辑 收藏

1. NumPy的基本用法: - 安装:使用pip命令安装NumPy库:`pip install numpy` - 导入:在Python代码中导入NumPy库:`import numpy as np` - 创建数组:使用np.array()函数创建NumPy数组,可以传入列表、元组等:`arr = np.array([1, 2, 3])` - 数组属性:可以使用数组的属性获取信息,如形状(shape)、维度(ndim)、元素类型(dtype)等:`arr.shape`、`arr.ndim`、`arr.dtype` - 数组运算:NumPy支持对数组进行各种数学运算,如加减乘除、幂运算、三角函数等。运算可以直接对数组进行,也可以使用NumPy的函数进行:`arr + 2`、`np.sin(arr)` - 数组索引和切片:可以使用索引和切片操作获取数组中的元素或子数组:`arr[0]`、`arr[1:3]` - 数组操作:可以进行数组的合并、重塑、转置等操作,如np.concatenate()、np.reshape()、np.transpose()等。 2. Pandas基本用法: - 安装:使用pip命令安装Pandas库:`pip install pandas` - 导入:在Python代码中导入Pandas库:`import pandas as pd` - 创建Series和DataFrame:Pandas的核心数据结构是Series和DataFrame。可以使用pd.Series()创建Series对象,pd.DataFrame()创建DataFrame对象。 - 数据读取:Pandas可以读取多种数据源的数据,如CSV、Excel、数据库等。使用pd.read_csv()、pd.read_excel()等函数进行数据读取。 - 数据处理:Pandas提供了丰富的数据处理功能,如数据清洗、缺失值处理、重复值处理、数据筛选、排序等。 - 数据分析:Pandas支持各种统计分析和聚合操作,如求和、均值、最大值、最小值、分组统计等。可以使用DataFrame的方法进行分析操作。 - 数据可视化:Pandas结合Matplotlib库,可以进行数据可视化操作,如绘制折线图、柱状图、散点图等。 - 数据导出:可以将处理后的数据导出为CSV、Excel等格式,使用to_csv()、to_excel()等方法。 NumPy是一个用于数值计算的库,提供了强大的数组和矩阵运算功能。而Pandas是一个基于NumPy的数据分析库,提供了高效的数据操作和处理工具。NumPy适合处理数值型数据,而Pandas适合处理结构化的表格型数据。两者经常一起使用,在数据分析和科学计算领域具有广泛的应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值