Faster 情感分析
一、数据预处理:
-
FastText分类模型:
-
其他文本分类模型最大的不同之处在于其计算了输入句子的n-gram
- n-gram: 将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列,其中每一个字节片段称为gram
-
将n-gram作为一种附加特征来获取局部词序特征信息添加至标记化列表的末尾
-
TorchText ‘Field’ 中有一个
preprocessing
参数TEXT = data.Field(tokenize = 'spacy', tokenizer_language = 'en_core_web_sm', preprocessing = generate_bigrams)
-
构建vocab并加载预训练好的此嵌入:
MAX_VOCAB_SIZE = 25_000 TEXT.build_vocab(train_data, max_size = MAX_VOCAB_SIZE, vectors
-