分类变量编码python处理

最新推荐文章于 2024-08-03 19:27:22 发布

#温室里的土豆

最新推荐文章于 2024-08-03 19:27:22 发布

阅读量3.7k

点赞数 4

分类专栏： python文本处理文章标签： python 开发语言

本文链接：https://blog.csdn.net/m0_52488320/article/details/123527273

版权

python文本处理专栏收录该内容

11 篇文章 2 订阅

订阅专栏

当变量为分类变量，又可称定性变量时，文字时无法进行数学运算的，需要将其转化。

分类变量可以分为有序分类与无序分类，如奖学金的等级、疫情的风险区等属于有序分类，而省份、国家、地区等是没有优劣之分的，属于无序变量。此外，分类变量还可以分为为二分类与多分类，如性别、是否为“XX”等为二分类，可以直接转化为0-1变量，其余即为多分类。

在处理上，二分类可以转化为0-1变量或虚拟变量直接用于数学运算，而多分类变量如果是等距有序的同样可以直接运算，若是无序的或非等距的则需要进行编码处理，如转化为哑变量或利用独热编码处理。这两类都可以通过spss实现。

针对python：

二分类：

data0 = pd.read_excel('评论汇总.xlsx')
data = pd.read_excel('评论汇总.xlsx')['是否为PLUS会员']
result=[]
for i in data:
    if i =='PLUS会员':
        i=1
        result.append(i)
    else:
        i=0
        result.append(i)
data0['是否为京东会员']=pd.DataFrame(result)

多分类：

data0 = pd.read_excel('奖学金.xlsx')
data = pd.read_excel('奖学金.xlsx')['奖学金']
result=[]
for i in data:
    if i =='一等':
        i=3
        result.append(i)
    elif i=="二等":
        i=2
        result.append(i)
    else:
        i=1
        result.append(i)
data0['奖学金编码']=pd.DataFrame(result)

结果：

#温室里的土豆

关注

4
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
分类变量编码python处理

当变量为分类变量，又可称定性变量时，文字时无法进行数学运算的，需要将其转化。分类变量可以分为有序分类与无序分类，如奖学金的等级、疫情的风险区等属于有序分类，而省份、国家、地区等是没有优劣之分的，属于无序变量。此外，分类变量还可以分为为二分类与多分类，如性别、是否为“XX”等为二分类，可以直接转化为0-1变量，其余即为多分类。在处理上，二分类可以转化为0-1变量或虚拟变量直接用于数学运算，而多分类变量如果是等距有序的同样可以直接运算，若是无序的或非等距的...
复制链接

扫一扫