最近在看tf框架,挺有意思的。在文本分类部分中再一次看到了one-hot编码,查了些资料,在此做一个记录。
我们先来看一个one-hot编码的例子。
假设字典中包含以下元素。
dict = [我,我们,爱,中国,你好,有趣]
一般的字典会包含10^6乃至更多的字词,在这里我们仅仅举例。
那么对于以下词语,如何进行one-hot编码呢?
‘我们’:(0,1,0,0,0,0)
‘中国’:(0,0,0,1,0,0)
‘你好’:(0,0,0,0,1,0)
就是词语在字典中出现的位置。
同时,词语进行one-hot编码后得到的向量与词典维度相同。
这不禁让我疑问:怎么解决维度爆炸这种情况呢?