python每日学习14:pandas库的用法(3)

python每日学习14:pandas库的用法(3)

  • 修改替换变量值

    • 本质上是如何直接指定单元格的问题,只要能准确定位单元地址,就能够做到准确替换。

      import pandas as pd
      df=pd.DataFrame({'name':['zs','ls','we'],'weight':[78,70,85],'age':[34,45,29]})
      
      # df.weight[1]=33
      # df['weight'][1]=68
      # df.loc[1,'weight']=55
      # df.weight[df.weight.isin([77,88,55])]=99
      
    • 对应数值的替换

      • df.replace(,to_replace = None,str/regex/list/dict/Series/numeric/Nonevalue = None,inplace = False)
      df.age.replace(554,45,inplace=True)
      df.age.replace([34,29],[0,1],inplace=True)#age列的值从34和29替换为0和1
      df.age.replace({34:'abc',29:'edc'},inplace=True)列的值从3429替换为字符串'女''男'
  • 指定数值范围的替换

    • 方法一:使用正则表达式完成替换:df.replace(regex, newvalue)。

    • 方法二:使用行筛选方式完成替换,用行筛选方式得到行索引,然后用 loc 命令定位替换目前也支持直接筛选出单元格进行数值替换。
      注意:query 命令的类 SQL 语句可以逬行检索,但不直接支持数值替换。

      import pandas as pd
      
      # 创建一个示例DataFrame
      data = {
          '姓名': ['张三', '李四', '王五', '赵六'],
          '性别': ['男', '女', '女', '男'],
          '体重': [65, 72, 75, 60],
          '开设': ['不清楚', '不错', '不行', '不感兴趣'],
          '支出': [100, 100, 100, 100]  # 添加支出列用于演示
      }
      df = pd.DataFrame(data)
      
      # 使用正则匹配数据
      df.开设.replace(regex = '不.+',value = '可以',inplace = True)#使用正则表达式匹配以“不”开头的字符串。将匹配到的字符串替换为“可以”
      #iloc loc
      df.支出.iloc[0:3] = 20
      df.支出.loc[0:2] =30
      #条件筛选替换
      df.体重[df.体重>70] =70
      
      # #query()的使用
      
      df.loc[df.query('性别 == "女" and 体重 > 60').体重.index,'体重'] = 50
      
    • 虚拟变量变换

      • pd.get_dummies(,data,prefix = None,prefix_sep = 11 ,prefix,dummy_na = False ,columns = None,drop_first = False,)#返回值为数据框。
      import pandas as pd
      data = {
          'id': [1, 2, 3, 4],
          '类型': ['A', 'B', 'A', 'C']
      }
      df2 = pd.DataFrame(data)
      
      # 查看DataFrame的前几行
      df2.head()
      
      # 为单个列创建虚拟变量
      pd.get_dummies(df2.类型, prefix='_')
      
      # 为多个列创建虚拟变量
      pd.get_dummies(df2, columns=['类型'])
      
  • 数值变量分段

    • pd.cut(,X ,bins,int,sequence of scalars ,right = True,labels = None,include_lowest = False,right ,)#分段结果是数值类型为 Categories 的序列。pd.qcut # 按均值取值范围进行等分。

      • X :希望逬行分段的变量列名称
        bins :具体的分段设定
        int :被等距等分的段数
        sequence of scalars :具体的每一个分段起点,必须包括最值,可不等距
        right = True :每段是否包括右侧界值
        labels = None :为每个分段提供自定义标签
        include_lowest = False :第一段是否包括最左侧界值,需要和right 参数配合
      import pandas as pd
      data = {
          '姓名': ['张三', '李四', '王五', '赵六'],
          '身高': [165, 175, 160, 180]
      }
      df = pd.DataFrame(data)
      # 按均值取值范围进行等分
      df['cut1'] = pd.qcut(df.身高, q=5)
      # 自定义分段
      df['cut2'] = pd.cut(df.身高, bins=[150, 160, 170, 180, 190], right=False)
      print(df)
      
  • 数据分组

    • df.groupby(,by , level = None ,as_index = True,sort = True,)#生成的是分组索引标记,0而不是新的 df。

      • by :用于分组的变量名/函数
        level = None :相应的轴存在多重索引时,指定用于分组的级别
        as_index = True :在结果中将组标签作为索引
        sort = True :结果是否按照分组关键字逬行排序
      import pandas as pd
      
      # 创建一个示例DataFrame
      data = {
          '姓名': ['张三', '李四', '王五', '赵六'],
          '性别': ['男', '女', '女', '男'],
          '体重': [65, 72, 75, 60],
          '开设': ['可以', '可以', '不清楚', '不感兴趣']
      }
      df = pd.DataFrame(data)
      
      # 按'开设'列分组
      dfg=df.groupby('开设')
      dfg.groups
      
      # 查看分组的描述性统计
      dfg.describe()
      
      # 按'性别'和'开设'列分组
      dfg2 = df.groupby(['性别', '开设'])
      dfg2.groups
      
      # 查看多列分组的均值
      df.groupby(['开设'])['体重'].mean()
      
  • 分组汇总

    • 在使用 groupby 完成数据分组后,就可以按照需求进行分组信息汇总,此时可以使用其它专门的汇总命令,如 agg 来完成汇总操作。

    • 使用 agg 函数进行汇总df.aggregate( ),名称可以直接简写为 agg,可以用 axis 指定汇总维度,可以直接使用的汇总函数。

      • count(): 计算非空观测值的数量。
      • size(): 计算组的大小,即组内元素的数量。
      • sum(): 计算值的总和。
      • mean(): 计算值的平均值。
      • median(): 计算值的中位数,即按大小排序后位于中间位置的值。
      • min(): 找出值中的最小值。
      • max(): 找出值中的最大值。
      • std(): 计算值的无偏标准差,即样本标准差。
      • var(): 计算值的无偏方差。
      • skew(): 计算值的无偏偏度(第三阶矩)。
      • kurt(): 计算值的无偏峰度(第四阶矩)。
      • quantile(): 计算样本的分位数,即指定百分比位置的值。
      • apply(): 通用应用函数,允许对数据集执行自定义操作。
      • cov(): 计算两个变量的无偏协方差。
      • corr(): 计算两个变量的相关系数。
      import pandas as pd
      import numpy as np
      data = {
          '姓名': ['张三', '李四', '王五', '赵六'],
          '性别': ['男', '女', '女', '男'],
          '体重': [65, 72, 75, 60],
          '身高': [175, 165, 160, 180],
          '开设': ['可以', '可以', '不清楚', '不感兴趣']
      }
      df = pd.DataFrame(data)
      
      # 按'开设'列分组
      dfg = df.groupby('开设')
      dfg.agg('count')
      
  • 处理缺失值

    # 认识缺失值
    # 系统默认的缺失值 None 和 np. nan
    data=pd.Series([3,4,np.nan,1,5,None])
    df=pd.DataFrame([[1,2,None],[4,np.nan,6],[5,6,7]])
    
    # 缺失值查看
    # 直接调用info()方法就会返回每一列的缺失情况。
    df.info()
    
    # 还可以用isnull()方法来判断哪个值是缺失值,如果是缺失值则返回
    # True,如果不是缺失值返回False。
    # df.isna(): 检查相应的数据是否为缺失值 同 df.isnull()。
    # df.notna()等同于notnull()
    df.isnull()
    df.isna()
    df[df.isnull()]
    df[df.notnull()]
    
    # 检查多个单元格的取值是否为指定缺值
    # df.any(
    #  axis : index (0), columns (1)
    #  skipna = True :检查时是否忽略缺失值
    #  level = None :多重索引时指定具体的级别
    # )
    # df.all(
    #  axis : index (0), columns (1)
    #  skipna = True :检查时是否忽略缺失值
    #  level = None :多重索引时指定具体的级别
    # )
    #默认检测的是列值
    df.isna().any()
    
  • 填充缺失值

    • 调用fillna()方法对数据表中的所有缺失值进行填充,在fillna()方法中输入要填充的值。还可以通过method参数使用前一个数和后一个数来进行填充。df.fillna(,value ,dict/Series/DataFrame ,method = None ,limit = None,axis : index (0), columns (1),inplace = False)。

      • value :用于填充缺失值的数值,也可以提供
        dict/Series/DataFrame 以进—步指明哪些索引/列会被替换 不能使用 list
        method = None :有索引时具体的填充方法,向前填充,向后填充等
        limit = None :指定了 method 后设定具体的最大填充步长,此步长不能填充
        axis : index (0), columns (1)
        inplace = False
      # Series对象缺失值填充
      df=pd.Series([3,4,np.nan,1,5,None])
      
      # 以0进行填充:
      df.fillna(0)
      
      # 以前一个数进行填充
      df.fillna(method='ffill')
      
      # 以后一个数进行填充:
      df.fillna(method='bfill')
      
      # 先按前一个,再按后一个
      df.fillna(method='bfill').fillna(method='ffill')
      
      # DataFrame对象缺失值填充
      df=pd.DataFrame([[1,2,np.nan],[4,np.nan,6],[5,6,7]])
      
      # 使用数值0来填充
      df.fillna(0)
      # 使用行的前一个数来填充
      df.fillna(method='ffill')
      # 使用列的后一个数来填充
      df.fillna(method='bfill' ,axis=1)
      
  • 删除缺失值

    • 调用dropna()方法删除缺失值,dropna()方法默认删除含有缺失值的行,也就是只要某一行有缺失值就把这一行删除。如果想按列为单位删除缺失值,需要传入参数axis=’columns’。
      df.dropna(,axis = 0,how = any,any ,all ,thresh = None,int,subset,inplace = False )

      • axis = 0 : index (0), columns (1)
        how = any : any、all
        any :任何一个为 NA 就删除
        all :所有的都是 NA 删除
        thresh = None :删除的数量阈值,
        int
        subset :希望在处理中包括的行/列子集
        inplace = False
      # 删除缺失值
      df=pd.DataFrame([[1,2,np.nan],[4,np.nan,6],[5,6,7]])
      
      # 默认为以行为单位剔除
      df.dropna()
      # 以列为单位剔除
      df.dropna(axis='columns')
      
      # 删除空白行
      df=pd.DataFrame([[1,2,np.nan],[4,np.nan,6],[5,6,7]])
      
      # 所有为nan时候才剔除
      df.dropna(how='all')
      df.dropna(how='any')
      
  • 数据查重

    import pandas as pd
    
    # 创建一个示例DataFrame
    data = {
        '姓名': ['张三', '李四', '王五', '赵六', '张三'],
        '课程': ['数学', '数学', '英语', '物理', '数学'],
        '开设': ['可以', '可以', '可以', '不感兴趣', '可以'],
        '成绩': [88, 92, 85, 91, 93]
    }
    df = pd.DataFrame(data)
    
    # 标识出重复的行
    # 标识出重复行的意义在于进一步检査重复原因,以便将可能的错误
    # 数据加以修改
    # Duplicated
    df['dup'] = df.duplicated(['课程', '开设'], keep=False)
    
    # 利用索引进行重复行标识
    # df.index.duplicated()
    df2 = df.set_index ( ['课程','开设'] )
    df2.index.duplicated ()
    
    # 直接删除重复的行
    # drop_duplicates (
    #  subset=“ ”按照指定的行逬行去重
    # keep='first' 、 'last' 、 False 是否直接删除有重复的所有记录
    # )
    df. drop_duplicates ( ['课程', '开设' ] )
    df. drop_duplicates ( ['课程', '开设' ] , keep= False )
    
    # 利用査重标识结果直接删除
    # df[~df.duplicated( )]
    df[~df . duplicated ( ['课程', '开设' ] )]
    
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值