摘要:
本文回顾了关系抽取与实体抽取领域的经典与新兴模型,清晰地梳理了它们的出现时间与核心创新,并给出在 2025 年不同资源与场景下的最佳实践推荐。文章引用了 BiLSTM‑CRF、BiLSTM‑CNN‑CRF、SpanBERT、LUKE、KnowBERT、CasRel、REBEL、UIE,大模型抽取 等模型的原始论文与权威来源,帮助读者全面、系统地理解信息抽取技术的发展脉络与应用指南。
一、信息抽取技术的发展时间线
年份 |
代表模型 |
核心贡献 |
---|---|---|
2016 |
BiLSTM‑CRF(Lample et al.) |
将双向 LSTM 与 CRF 解码结合,实现端到端序列标注 |
2016 |
BiLSTM‑CNN‑CRF(Ma & Hovy) |
引入字符级 CNN 捕捉形态特征,增强未登录词处理 |
2019 |
KnowBERT(Peters et al.) |
将 WordNet/Wikipedia 知识注入 BERT,提升实体与关系抽取 |
2020 |
SpanBERT(Joshi et al.) |
用 span‑masking 学习片段边界表示,提升 QA 与关系抽取 (ArXiv 版本) |
2020 |
LUKE(Yamada et al.) |
实体感知自注意力,词与实体同处编码,刷新多项 SOTA |
2020 |
CasRel(Wei et al.) |
级联二元标注解决三元组重叠(SEO/EPO)问题 |
2021 |