1.pandas.get_dummies 的用法
get_dummies 是利用pandas实现one hot encode的方式。
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)[source]
import pandas as pd
df = pd.DataFrame([
['green' , 'A'],
['red' , 'B'],
['blue' , 'A']])
df.columns = ['color', 'class']
pd.get_dummies(df)
编码前:
编码后:
2.二分类0,1编码
fake ->1 true->0
data['review'] = (data.rumorType == 'fake').astype('int')
pandas 的缺失值判断:
pd.isna(obj) /isnull(obj) #检测类似数组对象缺失值。
pd.notna(obj) /notnull(obj) #检测类似数组对象非缺失值。
参数:obj:标量或数组
返回:布尔或布尔数组
说明:
# NA值如None或np.nan,NaT将映射True值。''或np.inf不被视为NA值
# pandas.options.mode.use_inf_as_na = True#视为na值
# Series,DataFrame也有此方法;full,notfull是别名