keras+lstm+crf命名实体识别

前阵子用crf++工具做了命名实体识别,这次用keras中的keras_contrib来试下,结合lstm。

keras_contrib使用过程的一些问题详见https://blog.csdn.net/m0_49621298/article/details/115535976

一、操作系统

window10

二、版本

Python 3.6.5、TensorFlow 2.1.0、Keras 2.3.1

三、原始数据处理过程

同之前的处理,详见https://blog.csdn.net/m0_49621298/article/details/109896619

本次开始的文件内容如下 train.txt,三列分别是分词、词性、标签,分词和词性做输入用

初步统计    l  o
,  w  o
全市 n  o
国内生产总值 nz w
达  v  o
1020   m  o
亿元 q  o
,  w  o
按  p  o
可比价格   n  o
计算 v  o
,  w  o
比  p  o
上年 t  o
增长 v  o
12.2   m  o
%  nx o
   w  o
第一 mq b
产业 n  m

四、特征、标签处理

vocab1=list(set([j[0] for i in data for j in i]))
word_idx1 = dict((w, i+2) for i, w in enumerate(vocab1))#分词的词典
x1 = [[word_idx1.get(w[0], 1) for w in s] for s in data] # 转化为整数,字典中没有的词设置为1   dict.get(key, default=None)
x1 = pad_sequences(x1, maxlen)#特征1
vocab2=list(set([j[1] for i in data for j in i]))
word_idx2 = dict((w, i+2) for i, w in enumerate(vocab2))#词性的词典
x2 = [[word_idx2.get(w[1], 1) for w in s] for s in data]
x2 = pad_sequences(x2, maxlen)#特征2
x1=np.array(x1)
x2=np.array(x2)
y_vocab=list(set([j[2] for i in data for j in i]))
y2idx = dict((w, i+2) for i, w in enumerate(y_vocab))#标签的词典
y = [[y2idx.get(w[2], 1) for w in s] for s in data]
y = pad_sequences(y, maxlen)
y = np.expand_dims(y, 2)

五、搭建模型

特征1(分词)和特征2(词性)分别Embedding,再融合为首层;中间层是双向lstm;输出层是crf

word_embedding_layer = Embedding(len(vocab1)+2,32,input_length=maxlen)(word_input)
pos_embedding_layer = Embedding(len(vocab2)+2,10,input_length=maxlen)(pos_input)
emb= concatenate([word_embedding_layer, pos_embedding_layer], axis=-1)#融合层
lstm = Bidirectional(LSTM(64, return_sequences=True))(emb)
crf = CRF(len(y_vocab)+2, sparse_target=True)
out = crf(lstm)
model = Model([word_input, pos_input], out)

六、编译、训练、保存、预测

model.compile(optimizer="rmsprop", loss=crf.loss_function, metrics=[crf.accuracy])
model.fit([x1,x2], y,batch_size=16,epochs=5,verbose=2)
model.save('./model/mymodel')
print(y[:10])
print(np.argmax(model.predict([x1[:10],x2[:10]]), axis=-1))

 loss: 0.0624 - crf_viterbi_accuracy: 0.9763 - val_loss: 0.0706 - val_crf_viterbi_accuracy: 0.9718

准确率97%,f1、召回值啥的还没计算~

全代码详见https://blog.csdn.net/m0_49621298/article/details/115585857

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值