假设我有类别,1到10,我想将红色分配给值3到5,绿色分配给1,6和7,蓝色分配给2个,8个,9个和10个.
我该怎么做?如果我试试
df.cat.rename_categories(['red','green','blue'])
我收到一个错误:ValueError:新类别需要具有与旧类别相同数量的项目!但如果我把它放进去
df.cat.rename_categories(['green','blue','red', 'red', 'red'
'green', 'green', 'blue', 'blue' 'blue'])
我会收到一个错误,说有重复的值.
我能想到的唯一另一种方法是编写一个for循环,它将遍历值的字典并替换它们.是否有更优雅的解决方案?
解决方法:
不确定优雅,但是如果你制作一个旧到新类别的词典,就像(注意添加的“紫色”):
>>> m = {"red": [3,4,5], "green": [1,6,7], "blue": [2,8,9,10], "purple": [11]}
>>> m2 = {v: k for k,vv in m.items() for v in vv}
>>> m2
{1: 'green', 2: 'blue', 3: 'red', 4: 'red', 5: 'red', 6: 'green',
7: 'green', 8: 'blue', 9: 'blue', 10: 'blue', 11: 'purple'}
您可以使用它来构建新的分类系列:
>>> df.cat.map(m2).astype("category", categories=set(m2.values()))
0 green
1 blue
2 red
3 red
4 red
5 green
6 green
7 blue
8 blue
9 blue
Name: cat, dtype: category
Categories (4, object): [green, purple, red, blue]
如果您确定在列中可以看到所有分类值,则不需要categories = set(m2.values())(如果您关心分类排序,则需要有序的等效项).但是在这里,如果我们不这样做,我们就不会在得到的分类中看到紫色,因为它是从实际看到的类别构建的.
当然,如果你已经建立了你的列表[‘green’,’blue’,’red’等],那么使用它直接创建一个新的分类列并完全绕过这个映射也同样容易.
标签:python,pandas
来源: https://codeday.me/bug/20190528/1169308.html