Python---Pandas库与数据处理

  1. 读取数据
    import pandas as pd
    pd.read_csv(" ")

     

  2. 观察数据

    print(xxx.dtypes) #每列的数据类型
    print(xxx.head(n)) #前n行数据
    print(xxx.tail(n)) #后n行数据
    print(xxx.columns) #每一列的名字
    print(xxx.shape) #行列数
    print(xxx.loc[0]) #索引为0的(第一个)数据
    
    print(xxx[列1, 列2]) #输出指定列
    xxx[新列名] = 变量 #将数组加入数据框
    
    xxx.max()
    xxx.mean()
    
    new = xxx.sort_values("列", inplace = True, ascending = True) #按照指定列排序,生成新的数据框,升序
    new.reset_index(drop = True) #排序后生成新的索引,并且删去原有索引
    
    pd.to_datetime() #转换格式

     

  3. 缺失值

    isnull = pd.isnull(dataframe[array]) #判断列中元素是否为空
    dataframe[isnull] #提取na值所在的行
    dataframe[isnull = False] #提取非na值
    len(isnull) #缺失值数目
    xxx.dropna(axis = 1, subset = (列1, 列2)) #删除带有缺失值的列,只对列1,2进行缺失值筛选操作

     

  4. 筛选以特定字符串开头/结尾的变量

    colnames = xxx.columns.tolist() #将列名变为list格式
    new = [] #预分配
    
    for i in colnames 
      if i endswith('文本') #endswith or startswith
        new.append(i) #将符合条件的列名存入new

     

  5. 数据透视表

    xxx.pivot_table(index = '', values = '', aggfunc = np.mean)
    
    #index 按照什么分组(男女、年级等)
    #values 对什么进行统计(分数、年龄等等)
    #aggfunc 统计方式(均值、极值)

     

  6. 自定义函数

    #第一种方式
    
    def 函数名(输入变量)
      。。。
      。。。
      return 变量或'字符串'
    
    xxx.apply(函数名)
    
    #第二种方式
    
    f = lambda x:pow(x, 2) #lambda定义匿名函数,输入变量为x,输出x的平方
    
    

     

  7. read_csv之后得到的是dataframe,dataframe的每一行或列是一个Series。如果想自建Series,需要

    from pandas import Series
     
    xxx = Series(变量, index = )

     

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值