pandas常用函数(更新中)

Series()   
#创建序列,类似一维数组,是pandas的基本数据结构
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])    #创建一个序列s,每个Series都会带有一个对应的index,用来标记不同的元素,index的内容不一定是数字,也可以是字母,中文等
print(s)

a    1
b    2
c    3
dtype: int64
DataFrame()   
#数据表格,类似一张二维的表格,它的每一列都是一个Series,是pandas的基本数据结构
d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c'])    #创建一个表
print(d)

   a  b  c
0  1  2  3
1  4  5  6
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])    #创建一个序列s,每个Series都会带有一个对应的index,用来标记不同的元素,index的内容不一定是数字,也可以是字母,中文等
d2 = pd.DataFrame(s)    #也可以用已有的序列来创建表格
print(d2)

   0
a  1
b  2
c  3
DataFrame.head()    #默认预览前5行数据d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c'])    #创建一个表
print d.head(1)    #预览前1条数据

   a  b  c
0  1  2  3
DataFrame.describe()    #数据基本统计量d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c'])    #创建一个表
print(d.describe())

             a        b        c
count  2.00000  2.00000  2.00000
mean   2.50000  3.50000  4.50000
std    2.12132  2.12132  2.12132
min    1.00000  2.00000  3.00000
25%    1.75000  2.75000  3.75000
50%    2.50000  3.50000  4.50000
75%    3.25000  4.25000  5.25000
max    4.00000  5.00000  6.00000
read_excel()  #读取excel文件,创建DataFrameinputfile = '../data/catering_sale.xls'
data = pd.read_excel(inputfile)
print(type(data))

<class 'pandas.core.frame.DataFrame'>
read_csv()    #读取csv文件,创建DataFrameinputfile = '../data/catering_sale.csv'
data = pd.read_csvl(inputfile, encoding='utf-8')    #读取文本格式的数据,一般用encoding指定编码
DataFrame.iloc[start,stop,interval]    #取表中的行print(data.iloc[0])    #取第一行数据

年龄        41.000000
教育         3.000000
工龄        17.000000
地址        12.000000
收入       176.000000
负债率        9.300000
信用卡负债     11.359392
其他负债       5.008608
违约         1.000000
Name: 0, dtype: float64
print(data.iloc[0:8])    #取值范围0-7

   年龄  教育  工龄  地址   收入   负债率      信用卡负债       其他负债  违约
0  41   3  17  12  176   9.3  11.359392   5.008608   1
1  27   1  10   6   31  17.3   1.362202   4.000798   0
2  40   1  15  14   55   5.5   0.856075   2.168925   0
3  41   1  15  14  120   2.9   2.658720   0.821280   0
4  24   2   2   0   28  17.3   1.787436   3.056564   1
5  41   2   5   5   25  10.2   0.392700   2.157300   0
6  39   1  20   9   67  30.6   3.833874  16.668126   0
7  43   1  12  11   38   3.6   0.128592   1.239408   0
print(data.iloc[0:8:2])

   年龄  教育  工龄  地址   收入   负债率      信用卡负债       其他负债  违约
0  41   3  17  12  176   9.3  11.359392   5.008608   1
2  40   1  15  14   55   5.5   0.856075   2.168925   0
4  24   2   2   0   28  17.3   1.787436   3.056564   1
6  39   1  20   9   67  30.6   3.833874  16.668126   0
print(data.iloc[:,:8])    #表示取8列数据,该表一供有9列

     年龄  教育  工龄  地址   收入   负债率      信用卡负债       其他负债
0    41   3  17  12  176   9.3  11.359392   5.008608
1    27   1  10   6   31  17.3   1.362202   4.000798
2    40   1  15  14   55   5.5   0.856075   2.168925
3    41   1  15  14  120   2.9   2.658720   0.821280
4    24   2   2   0   28  17.3   1.787436   3.056564
5    41   2   5   5   25  10.2   0.392700   2.157300
6    39   1  20   9   67  30.6   3.833874  16.668126
7    43   1  12  11   38   3.6   0.128592   1.239408
8    24   1   3   4   19  24.4   1.358348   3.277652
9    36   1   0  13   25  19.7   2.777700   2.147300
10   27   1   0   1   16   1.7   0.182512   0.089488
print(data.iloc[:,8])    #表示取第9列的数据(列从0开始计数)

0      1
1      0
2      0
3      0
4      1
5      0
6      0
7      0
8      1
9      0
10     0
DataFrame.as_matrix()    #将表格转换位其编号数组表示
pandas 0.23.0开始建议使用values()代替
x = data.iloc[0:8:2].as_matrix()

[[ 41.         3.        17.        12.       176.         9.3
   11.359392   5.008608   1.      ]
 [ 40.         1.        15.        14.        55.         5.5
    0.856075   2.168925   0.      ]
 [ 24.         2.         2.         0.        28.        17.3
    1.787436   3.056564   1.      ]
 [ 39.         1.        20.         9.        67.        30.6
    3.833874  16.668126   0.      ]]
DateFrame.columns[index]    #index作为索引项取值print(data.columns)    #取列

#Index([u'年龄', u'教育', u'工龄', u'地址', u'收入', u'负债率', u'信用卡负债', u'其他负债', u'违约'], dtype='object')

print(data.columns)[2,3,5,7]

工龄,地址,负债率,信用卡负债
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值