FastText
FastText通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。
FastText是一个三层的神经网络,输入层、隐藏层和输出层。
# coding: utf-8
from __future__ import unicode_literals
from keras.models import Sequential
from keras.layers import Embedding
from keras.layers import GlobalAveragePooling1D
from keras.layers import Dense
VOCAB_SIZE = 2000
EMBEDDING_DIM = 100
MAX_WORDS = 500
CLASS_NUM = 5
def build_fastText():
model = Sequential()
# 通过embedding层,将词汇映射成EMBEDDING_DIM维向量
model.add(Embedding(VOCAB_SIZE, EMBEDDING_DIM,input_length=MAX_WORDS))
# 通过GlobalAveragePooling1D平均了文档中所有词的embedding
model.add(GlobalAveragePooling1D())
# 通过输出层softmax分类,得到类别概率分布
model.add(Dense(CLASS_NUM, activation='softmax'))
# 定义损失函数、优化器、分类度量指标
model.compile(loss='categorical_crossentropy',optimizer='SGD',metrics=['accuracy'])
return model
if __name__ == "__main__":
model = build_fastText()
print(model.summary())
- FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类
- FastText学习到的Embedding空间维度比较低,可以快速进行训练
基于FastText的文本分类
import pandas as pd
from sklearn.metrics import f1_score
import fasttext
# 转换FastText需要的格式
train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text', 'label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2,
verbose=2, minCount=1, epoch=25, loss='hs')
val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str),val_pred, average='macro'))
如何使用验证集调参
label2id = {}
for i in range(total):
label = str(all_labels[i])
if label not in label2id:
label2id[label] = [i]
else:
label2id[label].append(i)
通过10折划分,我们一共得到了10份分布一致的数据,索引分别为0到9,每次通过将一份数据作为验证集,剩余数据作为训练集,获得了所有数据的10种分割。不失一般性,我们选择最后一份完成剩余的实验,即索引为9的一份做为验证集,索引为1-8的作为训练集,然后基于验证集的结果调整超参数,使得模型性能更优。