《基于SVM-BILSTM-CRF模型的财产纠纷命名实体识别方法》2018-《计算机系统应用》
SVM 筛选出包含关键命名实体的句子
句子转化为字符级向量作为输入
构建适合财产纠纷领域的BiLSTM -CRF 深层神经网络模型
一、SVM-BiLSTM-CRF 模型
1.SVM
查询词向量表,将语句转换成相应的词向量序列。输入 SVM 判断。 如果不含财产实体, 则将所有的字标记为 O, 否则查询字符向量表,获得相应的字符向量序列。
(1)由于包含财产实体的句子占案件描述句子的比重不高。 使用 SVM 将无用的句子直接筛除。获得训练样本。
(2)将训练样本经过分词, 去停用词,在不影响分类精度的情况下利用 tf-idf 进行特征降维形成词向量表{w1,w2,…,wn}, n=特征维度。 对于一个句子S i = {w′1,w′2,…,w′m} , m=句子长度, 经过词向量表处理, 形成一个特征向量{x′1, x′2,…, x′n} , 利用核函数φ与标签yi一起加入构成线性不可分问题方程。 使用SMO算法解决该线性不可分的线性支持向量机问题。
2.Bi-LSTM
符向量序列输入 BiLSTM 进行实体识别。
3.CRF
CRF 模块将 BiLSTM 的输出进行处理得出一个最优的标记序列。
由于单独使用 BiLSTM 生成的结果可能在标注序列并不是全局最优。通过CRF分析相邻标签的关系以获得一个全局最优的标记序列。
二、实验
1.构建数据集
中国裁判文书网下载的财产纠纷裁判文书。适当的数据预处理,手工标注后构建财产纠纷的语料库。一半作为训练集,一半作为测试集。
2.寻找触发词
有意义的命名实体存在于查明的事实和证据中。
事实往往以:“经审理查明”, “经审理认定”, “经开庭审理查明”, “经开庭审理认定”, “审理中查明”, “审理中认定”, “确定如下事实”,“认定如下事实”, “认定以下事实”, “查明如下事实”,“查明以下事实”, “本案事实如下”, “查明事实如下”,“确定事实如下”等作为起始句。
上述可作为“触发词”使用。将事实提取出来进行分句、分词、去停用词等处理。
3.构建适用于财产纠纷的四词位法
词是由一个或多个字组成的。 例如: “现金”是两字词, “上轿礼”是三字词。
组成词语的每一个汉字在一个特定的词语中都占据一个特定的构词位置, 即词位。
词位的种类根据研究的需要可以自行定义。
在已有的工作中常用的有四词位标注集 (B、M、E、S) 和六词位标注集 (B、B1、B2、M、 E、S)。
针对财产纠纷,使用四词位集。用 B 表示词的开始, M 表示词的中部, E 表示词的结尾, O 表示其他非财产的字, 并结合财产类别进行标注。(财产类别分为四类)