在数据的预处理过程中,我们需要将一个特征变量变为计算机能读懂的特征距离。
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
详细参数:
prefix:str, list of str, 或 dict of str, 默认为 None
用于追加DataFrame列名称的字符串。
prefix_sep:str, 默认为 ‘_’
如果附加前缀,则使用分隔符/分隔符。或者像这样传递列表或字典prefix。
dummy_na:bool, 默认为 False
如果忽略False NaN。
columns:list-like, 默认为 None
要编码的DataFrame中的列名。如果columns为None,则所有具有的列object或者categorydtype将被转换。
sparse:bool, 默认为 False
dummy-encoded列是否应由a支持SparseArray(True)或常规NumPy数组(False)。
drop_first:bool, 默认为 False
是否通过删除第一个级别从k个分类级别中获取k-1个虚拟对象。
用法举例:
data = pd.DataFrame({"学号":[1,2,3,4],
"录取":["清华","北大","清华","蓝翔"],
"学历":["本科","本科","本科","专科"]})
pd.get_dummies(data)
data = pd.DataFrame({"学号":[1,2,3,4],
"录取":["清华","北大","清华","蓝翔"],
"学历":["本科","本科","本科","专科"]})
pd.get_dummies(data,prefix='Hello')