命名体识别(工业级实战经验+代码)

reference:DASOU
https://zhuanlan.zhihu.com/p/148492889
https://github.com/DA-southampton/ner

1. 关键词匹配

TF-IDF 再根据效果和自己的数据做相关优化

又对数据做了补充,我在数据调研之后发现对于一部分领域文本,比如说娱乐领域,明星领域,财经领域等等吧,这些领域的文本很有特色,一般人名/地名/公司名称/书名/电影名称都可以很好的表示文本关键信息。

细节:扩充关键词词典,不同领域关键词有何区别,匹配算法如何高效执行(一般都是用树相关算法来做匹配)

2. 命名体识别

2.1 方向
词典匹配–>HMM/CRF–>BiLSTM-CRF–>Bert系列
很少直接就上复杂模型,一般都是先来简单模型,然后在优化迭代

2.2 词典匹配
词典匹配是最简单的,也是最快的:很依赖于你的词典情况,词典的补充需要你自己搞定。
2.2.1 词典的补充
1)比如找相关的运营人员/产品人员,因为他们比较靠近一线工作,手上会积累一些相关的词典。
2)使用合法爬虫手段(至于如何合法就自己考虑吧)去专业的垂直领域网站获取数据补充词典。
3)比如你可以获取已经有的关键词的同义词来扩充:如何获取同义词?获取同义词库

2.3 资源
2.3.1 命名体识别基础知识(论文,博客,经典书)
1)词典+最大逆向匹配做命名体识别整体思

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值