pandas的基本操作(一)

1.pandas的基本数据结构

目前,pandas的基本数据结构有3种,Series,DataFrame和Pandel。要想熟练使用Pandas,这三种数据结构一定要牢记于心。其中DataFrame使用频率最高。

数据结构维度轴标签
Series一维index(唯一的行)
DataFrame二维index(行)和columns(列)
Pandel三维items major_axis和 minor_axis

2.Series的数据结构

Series 是一维的,基本创建方式为:

pd.Series(data=None,index=None)
  • data: 传入数据,可以是多种类型,包括numpy
  • index 引索,在不指定的情况下,默认全部数据 ,即rang(0,len(data))

eg.

obj = pd.Series([4, 7, -5, 3, 7, np.nan])
obj~

输出:

0    4.0
1    7.0
2   -5.0
3    3.0
4    7.0
5    NaN
dtype: float64

3.DataFrame数据结构

DataFrame是最最常用的结构,它是一种表格型的数据结构,有行索引和列索引。

创建方式:pd.DataFrame(data=None,index=None,columns=None)

  • data:传入数据,可是传入多种类型。
  • index: 列引索 ,不指定自动填充
  • columns: 行引索 ,不指定自动填充

1 numpy 创建

import  pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(16).reshape((4,4)),
                  index=list('abcd'),
                  columns=['one','two','three','four'])
print(df)~

输出:

   one  two  three  four
a    0    1      2     3
b    4    5      6     7
c    8    9     10    11
d   12   13     14    15

2 由Series组成的字典

import  pandas as pd
df = pd.DataFrame({'one':pd.Series([0,1,2,3]),
                    'two':pd.Series([4,5,6,7]),
                    'three':pd.Series([8,9,10,11]),
                    'four':pd.Series([12,13,14,15])},
                   columns=['one','two','three','four'])
print(df)~

输出:

   one  two  three  four
0    0    4      8    12
1    1    5      9    13
2    2    6     10    14
3    3    7     11    15

可以看出,行名不指定,默认行号0,1,2…
3.字典

import  pandas as pd
data = [{"one":1,"two":2},
        {"one":5,"two":10,
         "three":15}]
df = pd.DataFrame(data)
print(df)

输出:

   one  two  three
0    1    2    NaN
1    5   10   15.0
import  pandas as pd
data = {
    "Jack":{"math":90, "english":89, "art":78},
    "Marry":{"math":82, "english":95, "art":96},
    "Tom":{"math":85, "english":94}
}
df = pd.DataFrame(data)
print(df)~

输出:

         Jack  Marry   Tom
math       90     82  85.0
english    89     95  94.0
art        78     96   NaN

总结:核心来啦–字典的健值作为dataframe的columns。如果没有指定index参数的值,行索引使用默认的数字索引。每个序列的长度必须相同。同样的,pandas会对会对列索引排序,如果显示的传入columns参数,将按照传入的值得顺序显示。

4. 文件读取函数

函数说明
read_csv()从csv格式的文件中读取数据
read_excel()_从Excel文件中读取数据
HDFStore()使用HDF5文件读写数据
read_sql()从SQL数据库中查询结果载入数据
read_pickle()读入pickle()序列化后的数据
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值