实体识别
信息抽取概述
- 知识获取
- 输入:领域知识本体 / 海量数据
- 输出:领域实例化知识(实体集合、时间集合、事件关系/属性、事件关系)
- 主要技术:信息抽取
- 信息抽取来源:网络文本信息结构
- 结构化数据
- 半结构化数据
- 纯文本(主要,非常重要)
- 信息抽取:从自然语言文本中抽取指定欸性的实体、关系、事件等事实信息,并形成机构化数据输出的文本处理技术
- 主要任务
- 实体识别
- 实体消歧
- 关系抽取
- 事件抽取
- 事件关系判别
信息抽取的基础:分词和词性标注
- 中文分词:在中文文本中词与词之间加上标记
- 词性标注PoS:确定当前上下文中每个词是名词、动词、形容词或其他词性的过程
- 分词的重要性
- 汉语句子分析的基础
- 中文语义与字词搭配相关
- 分词难点
- 分词的界限模糊
- 歧义切分(交集型歧义)
- 未登录词识别(命名实体、专业术语、新词语)
- PoS难点
- 词性兼类
- 中文分词方法
- 有词典切分(一般基于规则) vs. 无词典切分
- 基于规则的方法 vs. 基于统计的方法
- 有词典切分的分词方法
- 词典匹配
- 正向最大匹配法
- 算法P24
- 反向最大匹配法
- 与上述算法对应
- 最短路径法
- 算法P25
- 优点
- 简单一行
- 仅需要少量语言资源
- 缺点
- 歧义消解能力差
- 切分准确率不高
- 统计方法·生成式方法
- 建立样本生成模型,再进行间接推理
- HMM
- 马尔可夫过程:当前状态由前 t − 1 t - 1 t−1个时刻的状态决定
- 一阶马尔可夫假设:当前状态只与前一个状态相关
- 不动性假设:一阶假设独立于时间
- 表示成状态转移图,每个节点所有出弧概率和为1
- 序列概率 P ( S 1 , … , S T ) = π S 1 ∏ t ≥ 2 p ( S t ∣ S t − 1 ) P(S_1, \dots, S_T) = \pi_{S_1} \prod_{t \ge 2} p(S_t| S_{t - 1}) P(S1,…,ST)=πS1∏t≥2p(St∣St−1)
- 隐马尔可夫模型:双重随机构成,由状态序列产生观察序列
- HMM的三个问题
- 概率计算问题,给定观察序列,计算当前HMM下的概率
- 预测问题:给定观察序列的最佳状态序列
- 学习问题:给定观察序列,估计最大概率的模型参数
- HMM:分词 + 词性标注
- 分词结果作为观察序列
- 词性标注作为状态序列
- N即词性标记符号个数
- M每个状态课输出不同词汇的个数
- 求解目标
- 分词结果: O ^ = arg max O p ( O ∣ μ ) \widehat O = \arg \max_O p(O | \mu) O =argmaxOp(O∣μ)
- 词性标注结果: Q ^ = arg max Q p ( Q ∣ O , μ ) \widehat Q = \arg \max_Q p(Q | O, \mu) Q =argmaxQp(Q∣O,μ)
- 模型参数学习
- 监督训练:直接统计
- 无监督训练:E-M方法
- 优点:在预料规模足够大,覆盖领域足够大时有较高准确率
- 缺点:预料的规模和覆盖领域不好把握,模型实现复杂
- 统计方法·判别式方法
- 优先样本条件下,建立判别函数
- 分词问题转化为判别分类问题
- 确定每个子在此种位置问题(词首B、词中M、词尾E、独字词S)
- 最大熵模型
- 熵增原理
- 最大熵理论:在已知条件下,熵最大的事物最接近真实状态
- 约束条件:标注的训练集
- 基于最大熵模型的中文分词
- 为每个字标注BMES
- 生成最大熵训练实例
- 参数训练(生成实例——训练工具——参数训练)
- 测试(四个实例——激活标记——计算概率——取最大概率标记)
- 搜索最优标注路径
- 基于神经网络的中文分词
- BiLSTM + CRF
- 优点:精度高、新词识别率高
- 缺点:训练速度慢、需要设计模板以及人工标注语料、性能与之相关
- 字典 + 统计的方法
- 用字典辅助OOV词语识别
- 主要问题
- 语料规模小
- 覆盖领域少
- 实体和专有名词识别性能低
命名实体识别
- 命名实体
- 人名、机构名、地点名称
- 时间、日期、百分比、货币
- 知识图谱中的命名实体:知识图谱是由众多的实体以及实体之间的关系构成的
- 两个任务
- 实体边界识别
- 实体类别标注
- 特点
- 时间、日期、货币、百分比有明显规律
- 人名、地名、机构名识别难度大
- 数据大不可枚举
- 无明显规律
- 常用缩写
- 英文人名识别
- 具有明显特征
- 比较容易
- 中文人名识别
- 难点
- 规律不明显
- 姓氏和名字可单独使用指定
- 普通字词
- 缺乏启发标记(与上下文成词)
- 组合
- 姓
- 名
- 前缀
- 后缀
- 特点
- 各部分有一定规律
- 内部组合规律
- 上下文构成规律
- 难点
- 中文地名识别
- 难点
- 数量大、缺乏明确规范的定义
- 出现情形复杂
- 特点
- 绝大部分是两个字
- 常与方位词连用
- 难点
- 中文机构名识别
- 难点
- 含有大量的人名、企业字号等专有名称
- 用词广泛
- 长度不固定
- 存在不稳定
- 特点
- 偏正式复合词
- 定语 + 名词性中心语
- 难点
- 音译名识别
- 难点
- 很难划分出结构
- 音译规律不尽相同
- 上下文规律较差
- 难点
- 方法
- 有词典识别方法
- 词典匹配
- 正/反向最大匹配法
- 最短路径法
- 统计识别方法
- 生成式方法HMM
- 判别式方法CRF
- 有词典识别方法
- 条件随机场
- 给定一组输入随机变量下另一组输出随机变量的条件概率分布模型
- 假设输出随机变量构成马尔可夫随机场
- 用于序列结构标注问题
- 设 X X X和 Y Y Y是两组随机变量, P ( Y ∣ X ) P(Y|X) P(Y∣X)在给定 X X X下 Y Y Y的条件概率分布, Y Y Y构成无向图表示的马尔可夫随机场(只与相连节点相关),则称条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X)为条件随机场
- p ( Y v ∣ X , Y w , w ≠ v ) = p ( Y v ∣ X , y w , w ∼ v ) p(Y_v | X, Y_w, w \neq v) = p(Y_v | X, y_w, w \sim v) p(Yv∣X,Yw,w=v)=p(Yv∣X,yw,w∼v)
- 线性链CRF:两组条件变量均为线性链表示随机序列
- HMM vs. ME vs. CRF
- HMM,生成式模型,只用两个矩阵建模(转移矩阵和生成矩阵),无法利用复杂特征
- ME,判别式模型,可以使用任意复杂特征(特征函数),但是只能得到观察序列与某一状态的关系,状态间关系无法利用
- CRF,判别式模型,可以使用任意复杂特征,可以建模序列和多个状态的关系,考虑了状态之间的关系
- 基于CRF的NER
- 对每个汉字标注对应实体模型的BIO标记
- 特征函数:不同种类的特征(上下文、词性、词表)
- 词表:生成实例——送入工具——参数训练
- 测试:生成实例——激活特征——计算特征概率——取最大概率标记
- LSTM + CRF的NER
- 利用神经网络学习文本中特征
- LSTM产生特征——CRF优化目标函数——产生实体类别
- 汉语分词CWS + NER
- 分词错误可能积累到NER中
- GAN based NER
- 使用丰富的分词数据提升NER性能
- 融入词典的NER
- Lattice LSTM获取词信息
细粒度实体分类
- Entity Typing
- 更细致的分类,用于提升性能
- 类别特点
- 更多
- 更细
- 难点
- 类别制定
- 语料标注
- 实体识别方法
- 方法
- 无监督
- 有监督
- 无监督方法
- KnowItAll:规则抽取(人工制定,搜索引擎扩展),实体名抽取(互联网抽取)、实体名验证(搜索引擎验证)
- 有监督方法
- 特征工程
- 神经网络
- 思路:上下文、知识库
开放领域实体识别
- 不限制实力类别
- 不限制目标文本
- 给定某一类别实体实例,从网页中抽取同一类别其他类别实体
- 思路:中自此与目标词在网页中有相同或类似的上下文
- 种子词——模板——更多同类实体
- 主要方法
- Query Log
- 网页结构
- 多数据源融合