什么是独热编码?
独热编码(One-Hot Encoding),又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。即,只有一位是1,其余都是零值。
例如,对六个状态进行编码:
自然顺序码为 000,001,010,011,100,101
独热编码则是 000001,000010,000100,001000,010000,100000
one-hot编码的python手动实现
import numpy as np
samples = ['我 毕业 于 辽宁大学', '我 就职 于 中国科学院研究所']
token_index = {
}
for sample <