一、基于规则的方法
优点:
- 比较准确
- 不需要训练数据
缺点:
- low recall rate,(覆盖问题),覆盖范围小,很多规则人想不到
- 成本(人力)
- 规则本身难以设计(规则不冲突,规则不冗余)
二、基于监督学习的方法
-
定义关系类型
-
定义实体类型
-
训练数据准确
- 实体标记好(类型)
- 实体之间的关系
-
根据特征,用分类算法判断属于哪个关系类型
三、Bootstrap算法
- 建立一个seed tuple
- 生成新的规则(由文本生成规则)
- 遍历文本,利用已知的规则生成新的tuple
- 重复2 3 步
缺点:
- 算法的Error会逐步累加下来
四、Snowball
规则采用五元组:[left] [ORG] [middle] [LOC] [right]
-
生成规则
-
生成tuple
-
评估规则准确 + 过滤
- 计算left、middle、right的相似度
-
评估tuple准确 + 过滤