NLP-文本张量表示
三种常用文本张量
one-hot编码
又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其他元素都是0
from sklearn.externals import joblib
from keras.preprocessing.text import Tokenizer
# 例如:
vocab = {'苹果', '菠萝'}
t = Tokenizer(num_words=None, char_level=False)
t.fit_on_texts(vocab)
for
原创
2021-06-03 10:30:36 ·
221 阅读 ·
0 评论