(三) 使用Pandas进行数据分析 - 新增(修改)数据列

在进行数据分析时,经常需要按照一定条件创建新的数据列,然后进行进一步分析。

这里介绍四种方法:

  1.  直接赋值
  2.  df.apply方法
  3.  df.assign方法
  4.  按条件选择分组分别赋值

直接赋值的方法

#首先创建一个DataFrame
import numpy as np
import pandas as pd

s1 = np.arange(1,10).reshape(3,3)
df1 = pd.DataFrame(s1)

获得如下dataframe

直接赋值新增列的方法(使用.loc):

df1.loc[:,'new_col'] = df1[0] + df1[1]
#df1[0]返回的是一个Series,这个加法返回的结果也是一个Series,然后赋给新列'new_col'
#加法是根据两个Series对应的index的值相加的

df.apply方法

Apply a function along an axis of the DataFrame.

Objects passed to the function are Series objects whose index is either the DataFrame's index

(axis = 0) or the DataFrame's columns(axis = 1).

实例:添加一列新数据

  • df1[0]为1,则生成A;为4,则生成B;为7,则生成C
#首先定义一个判断函数,再传入df.apply内(这里也可以使用lambda)
def mp(df):
    if df[0] == 1:
        return 'A'
    if df[0] == 4:
        return 'B'
    if df[0] == 7:
        return 'C'

#这里注意需要设置axis = 1
df1.loc[:,'new_col_2'] = df1.apply(mp,axis = 1)

得到如下结果:

这里介绍一个小知识点,查看各种类型的计数,看是否新列添加成功

df1['new_col_2'].value_counts()

 df.assign方法

Assign new columns to a DataFrame.

Return a new object with all original columns in addition to new ones.

该方法可以同时添加多个新的列,但它不会修改源对象,会生成一个新的对象

df1.assign(
    'new_col_3' = lambda x : x[0] + x[1],
    'new_col_4' = lambda x : x[0] - x[1]) 

按条件选择分组分别赋值

#首先创建一个新列,值为空
df1['new'] = ''
#这里运用了Pandas的广播机制,df1['new']是一个Series,但是让它等于单个值,pandas就会把这个值复制到每一行

#然后进行条件赋值
df1.loc[df1[0] - df1[1] > 0,'new'] = '正数'
df1.loc[df1[0] - df1[1] < 0,'new'] = '负数'

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值