【*项目调研+论文阅读】SVM-BILSTM-CRF模型SVM-BILSTM-CRF模型 | day7

《基于SVM-BILSTM-CRF模型的财产纠纷命名实体识别方法》2018-《计算机系统应用》


SVM 筛选出包含关键命名实体的句子
句子转化为字符级向量作为输入
构建适合财产纠纷领域的BiLSTM -CRF 深层神经网络模型

一、SVM-BiLSTM-CRF 模型

在这里插入图片描述

1.SVM

  查询词向量表,将语句转换成相应的词向量序列。输入 SVM 判断。 如果不含财产实体, 则将所有的字标记为 O, 否则查询字符向量表,获得相应的字符向量序列。

  (1)由于包含财产实体的句子占案件描述句子的比重不高。 使用 SVM 将无用的句子直接筛除。获得训练样本。
  (2)将训练样本经过分词, 去停用词,在不影响分类精度的情况下利用 tf-idf 进行特征降维形成词向量表{w1,w2,…,wn}, n=特征维度。 对于一个句子S i = {w′1,w′2,…,w′m} , m=句子长度, 经过词向量表处理, 形成一个特征向量{x′1, x′2,…, x′n} , 利用核函数φ与标签yi一起加入构成线性不可分问题方程。 使用SMO算法解决该线性不可分的线性支持向量机问题。

2.Bi-LSTM

  符向量序列输入 BiLSTM 进行实体识别。

3.CRF

  CRF 模块将 BiLSTM 的输出进行处理得出一个最优的标记序列。
由于单独使用 BiLSTM 生成的结果可能在标注序列并不是全局最优。通过CRF分析相邻标签的关系以获得一个全局最优的标记序列。

二、实验

1.构建数据集

  中国裁判文书网下载的财产纠纷裁判文书。适当的数据预处理,手工标注后构建财产纠纷的语料库。一半作为训练集,一半作为测试集。
在这里插入图片描述

2.寻找触发词

  有意义的命名实体存在于查明的事实和证据中。
  事实往往以:“经审理查明”, “经审理认定”, “经开庭审理查明”, “经开庭审理认定”, “审理中查明”, “审理中认定”, “确定如下事实”,“认定如下事实”, “认定以下事实”, “查明如下事实”,“查明以下事实”, “本案事实如下”, “查明事实如下”,“确定事实如下”等作为起始句。
  上述可作为“触发词”使用。将事实提取出来进行分句、分词、去停用词等处理。

3.构建适用于财产纠纷的四词位法

  词是由一个或多个字组成的。 例如: “现金”是两字词, “上轿礼”是三字词。
  组成词语的每一个汉字在一个特定的词语中都占据一个特定的构词位置, 即词位。
  词位的种类根据研究的需要可以自行定义。
  在已有的工作中常用的有四词位标注集 (B、M、E、S) 和六词位标注集 (B、B1、B2、M、 E、S)。
  针对财产纠纷,使用四词位集。用 B 表示词的开始, M 表示词的中部, E 表示词的结尾, O 表示其他非财产的字, 并结合财产类别进行标注。(财产类别分为四类)
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

炖鹅小铁锅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值