常用条件:
多条件、是否相等、字符串是否包含、是否为nan等。
import pandas as pd
import numpy as np
df =pd.read_excel("/Users/name/Desktop/file.xlsx")
df['label'] = np.nan
# df['label'] = None
# 1. 判断值
df.loc[df['A'] == 'a', 'label'] = '1'
# 判断是否赋值成功,在赋值前后执行
# df[df.loc[:, 'A'] == 'a'].head(20)
# 2. 判断是否包含、以及多个条件的并行判断
df.loc[(df.loc[:, 'A'].str.contains("a")) & (df.loc[:, 'B'].str.contains("b")), 'label'] = '2'
# 3. 判断是不是null
df.loc[pd.isnull(df.loc[:, 'label']), 'label'] = '3'
# 请注意后面的判断条件(优先级低的判断,不要覆盖优先级高的判断)
# 标签结果的分布统计
df.groupby(['label']).size()