(十一)关系抽取方法

一、基于规则的方法

优点

  • 比较准确
  • 不需要训练数据

缺点

  • low recall rate,(覆盖问题),覆盖范围小,很多规则人想不到
  • 成本(人力)
  • 规则本身难以设计(规则不冲突,规则不冗余)

二、基于监督学习的方法

  • 定义关系类型

  • 定义实体类型

  • 训练数据准确

    • 实体标记好(类型)
    • 实体之间的关系
  • 根据特征,用分类算法判断属于哪个关系类型

三、Bootstrap算法

  1. 建立一个seed tuple
  2. 生成新的规则(由文本生成规则)
  3. 遍历文本,利用已知的规则生成新的tuple
  4. 重复2 3 步

缺点

  • 算法的Error会逐步累加下来

四、Snowball

规则采用五元组:[left] [ORG] [middle] [LOC] [right]

  1. 生成规则

  2. 生成tuple

  3. 评估规则准确 + 过滤

    - 计算left、middle、right的相似度
    
  4. 评估tuple准确 + 过滤

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值