（三）使用Pandas进行数据分析 - 新增（修改）数据列

最新推荐文章于 2023-02-24 17:56:44 发布

数据人章同学

最新推荐文章于 2023-02-24 17:56:44 发布

阅读量1.1k

点赞数

文章标签：数据分析数据挖掘

本文链接：https://blog.csdn.net/weixin_42598505/article/details/123002592

版权

在进行数据分析时，经常需要按照一定条件创建新的数据列，然后进行进一步分析。

这里介绍四种方法：

直接赋值
df.apply方法
df.assign方法
按条件选择分组分别赋值

直接赋值的方法

#首先创建一个DataFrame
import numpy as np
import pandas as pd

s1 = np.arange(1,10).reshape(3,3)
df1 = pd.DataFrame(s1)

获得如下dataframe

直接赋值新增列的方法（使用.loc）：

df1.loc[:,'new_col'] = df1[0] + df1[1]
#df1[0]返回的是一个Series，这个加法返回的结果也是一个Series，然后赋给新列'new_col'
#加法是根据两个Series对应的index的值相加的

df.apply方法

Apply a function along an axis of the DataFrame.

Objects passed to the function are Series objects whose index is either the DataFrame's index

(axis = 0) or the DataFrame's columns(axis = 1).

实例：添加一列新数据

df1[0]为1，则生成A；为4，则生成B；为7，则生成C

#首先定义一个判断函数，再传入df.apply内（这里也可以使用lambda）
def mp(df):
    if df[0] == 1:
        return 'A'
    if df[0] == 4:
        return 'B'
    if df[0] == 7:
        return 'C'

#这里注意需要设置axis = 1
df1.loc[:,'new_col_2'] = df1.apply(mp,axis = 1)

得到如下结果：

这里介绍一个小知识点，查看各种类型的计数，看是否新列添加成功

df1['new_col_2'].value_counts()

df.assign方法

Assign new columns to a DataFrame.

Return a new object with all original columns in addition to new ones.

该方法可以同时添加多个新的列，但它不会修改源对象，会生成一个新的对象

df1.assign(
    'new_col_3' = lambda x : x[0] + x[1],
    'new_col_4' = lambda x : x[0] - x[1])

按条件选择分组分别赋值

#首先创建一个新列，值为空
df1['new'] = ''
#这里运用了Pandas的广播机制，df1['new']是一个Series，但是让它等于单个值，pandas就会把这个值复制到每一行

#然后进行条件赋值
df1.loc[df1[0] - df1[1] > 0,'new'] = '正数'
df1.loc[df1[0] - df1[1] < 0,'new'] = '负数'