当变量为分类变量,又可称定性变量时,文字时无法进行数学运算的,需要将其转化。
分类变量可以分为有序分类与无序分类,如奖学金的等级、疫情的风险区等属于有序分类,而省份、国家、地区等是没有优劣之分的,属于无序变量。此外,分类变量还可以分为为二分类与多分类,如性别、是否为“XX”等为二分类,可以直接转化为0-1变量,其余即为多分类。
在处理上,二分类可以转化为0-1变量或虚拟变量直接用于数学运算,而多分类变量如果是等距有序的同样可以直接运算,若是无序的或非等距的则需要进行编码处理,如转化为哑变量或利用独热编码处理。这两类都可以通过spss实现。
针对python:
二分类:
data0 = pd.read_excel('评论汇总.xlsx')
data = pd.read_excel('评论汇总.xlsx')['是否为PLUS会员']
result=[]
for i in data:
if i =='PLUS会员':
i=1
result.append(i)
else:
i=0
result.append(i)
data0['是否为京东会员']=pd.DataFrame(result)
多分类:
data0 = pd.read_excel('奖学金.xlsx')
data = pd.read_excel('奖学金.xlsx')['奖学金']
result=[]
for i in data:
if i =='一等':
i=3
result.append(i)
elif i=="二等":
i=2
result.append(i)
else:
i=1
result.append(i)
data0['奖学金编码']=pd.DataFrame(result)
结果: