Pandas之DataFrame操作

最新推荐文章于 2024-06-14 21:08:47 发布

夜月xl

最新推荐文章于 2024-06-14 21:08:47 发布

阅读量4.7w

点赞数 10

分类专栏： Python 文章标签： python pandas DataFrame

Python 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

Pandas是Python下一个开源数据分析的库，它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。 1. 基本使用：创建DataFrame. DataFrame是一张二维的表，大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576，最大列数是16384，超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本，无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的sh事情，同时随后我们也将看到它比SQL有更强的表达能力，可以做很多复杂的操作，要写的code也更少。说了一大堆它的好处，要实际感触还得动手码代码。首要的任务就是创建一个DataFrame，它有几种创建方式：

列表，序列(pandas.Series), numpy.ndarray的字典
二维numpy.ndarray
别的DataFrame
结构化的记录(structured arrays)

其中，我最喜欢的是通过二维ndarray创建DataFrame，因为代码敲得最少：

 
    
         import  
         pandas as pd 
        
 
         import  
         numpy as np 
        
 
         df 
         = 
         pd.DataFrame(np.random.randn( 
         3 
         , 
         4 
         )) 
        
 
         df 
        
 
         0 
         1 
         2 
         3 
        
 
         0 
         0.236175 
         - 
         0.394792 
         - 
         0.171866 
         0.304012 
        
 
         1 
         0.651926 
         0.989046 
         0.160389 
         0.482936 
        
 
         2 
         - 
         1.039824 
         0.401105 
         - 
         0.492714 
         - 
         1.220438 
        
 
  

当然你还可以参考我的这篇文章从mysql数据库或者csv文件中载入数据到dataframe。
dataframe中index用来标识行，column标识列，shape表示维度。

 
         # 获得行索引信息 
        
         df.index 
        
         # 获得列索引信息 
        
         df.columns 
        
         # 获得df的size 
        
         df.shape 
        
         # 获得df的行数 
        
         df.shape[0] 
        
          # 获得df的 
         列数 
        
         df.shape[1] 
        
         # 获得df中的值 
        
         df.values

通过describe方法，我们可以对df中的数据有个大概的了解：

 
    
         df.describe() 
        
 
         0 
         1 
         2 
         3 
        
 
         count 
         3.000000 
         3.000000 
         3.000000 
         3.000000 
        
 
         mean 
         - 
         0.050574 
         0.331786 
         - 
         0.168064 
         - 
         0.144496 
        
 
         std 
         0.881574 
         0.694518 
         0.326568 
         0.936077 
        
 
         min 
         - 
         1.039824 
         - 
         0.394792 
         - 
         0.492714 
         - 
         1.220438 
        
 
         25 
         % 
         - 
         0.401824 
         0.003156 
         - 
         0.332290 
         - 
         0.458213 
        
 
         50 
         % 
         0.236175 
         0.401105 
         - 
         0.171866 
         0.304012 
        
 
         75 
         % 
         0.444051 
         0.695076 
         - 
         0.005739 
         0.393474 
        
 
         max 
         0.651926 
         0.989046 
         0.160389 
         0.482936 
        
 
  

2. 数据select, del, update。

按照列名select:

按照行数select:

按照索引select:

按照行数和列数select:

 
    
         df.iloc[ 
         3 
         ] 
         #选取第3行 
        
 
         df.iloc[ 
         2 
         : 
         4 
         ] 
         #选取第2到第3行 
        
 
         df.iloc[ 
         0 
         , 
         1 
         ] 
         #选取第0行1列的元素 
        
 
         dat.iloc[: 
         2 
         , : 
         3 
         ] 
         #选取第0行到第1行，第0列到第2列区域内的元素 
        
 
         df1.iloc[[1,3,5],[1,3]] 
         #选取第1，3，5行，第1，3列区域内的元素 
        
 
  

删除某列：

删除某行：

3.运算。

基本运算：

map运算，和python中的map有些类似：

apply运算：

4. Group by 操作。
pandas中的group by 操作是我的最爱，不用把数据导入excel或者mysql就可以进行灵活的group by 操作，简化了分析过程。

 
         df[ 
         0 
         ] 
         = 
         [ 
         'A' 
         , 
         'A' 
         , 
         'B' 
         ] 
        
         df 
        
         1 
         2 
         3 
         4 
         0 
        
         0 
         - 
         0.394792 
         - 
         0.171866 
         0.304012 
         - 
         0.566659 
         A 
        
         1 
         0.989046 
         0.160389 
         0.482936 
         1.149435 
          A 
        
         2 
         0.401105 
         - 
         0.492714 
         - 
         1.220438 
         - 
         0.091609 
         B 
        
         g 
         = 
         df.groupby([ 
         0 
         ]) 
        
         g.size() 
        
         A 
         2 
        
         B 
         1 
        
         g. 
         sum 
         () 
        
         1 
         2 
         3 
         4 
        
         0 
        
         A 
         0.594254 
         - 
         0.011478 
         0.786948 
         0.582776 
        
         B 
         0.401105 
         - 
         0.492714 
         - 
         1.220438 
         - 
         0.091609

5. 导出到csv文件
dataframe可以使用to_csv方法方便地导出到csv文件中，如果数据中含有中文，一般encoding指定为”utf-8″,否则导出时程序会因为不能识别相应的字符串而抛出异常，index指定为False表示不用导出dataframe的index数据。

 
         df.to_csv(file_path, encoding='utf-8', index=False) 
        
         df.to_csv(file_path, index=False)

本文出自杂七杂八，转载时请注明出处及相应链接。

本文永久链接: http://www.dcharm.com/?p=13

夜月xl

关注

10
点赞
踩
54

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录