实体识别(一)

实体识别(命名实体识别):

一、概念

1.实体:指客观存在、并可相互区别的事物,实体可以是具体的人、事、物,也可以是概念。

2.命名实体:以名称为标识的实体。即我们听到一个名字,就能知道这个东西是哪个具体的事物。

   命名实体识别主要分类:

  • 3 大类(实体类、时间类和数字类)
  • 7 小类(人名、地名、组织名、机构名、时间、日期、货币和百分比)

但随着 NLP 任务的不断扩充,在特定领域中会出现特定的类别。

  • 比如医药领域中,药名、疾病等类别。
  • 实体类型是根据需求人为定义的,这种定义可以是有层次的。例如,产品类是一个大类,下面可能会包含手机类、电脑类、照相机类等等。这种定义就是本体建模。
  • 本体是从schema的角度来定义(自上向下),而知识图谱则是从数据层(自底向上)来构建。对于领域或垂直行业的知识图谱,一般都需要有本体层。而实体可以定义为本体的某个概念的实例。有点像是类和对象的概念。

二、NER实体词典的获取与使用(新词挖掘)

  1. 一些网站会直接提供实体词典,如搜狗词典;
  2. 可以从结构化/半结构化数据中挖掘实体词典,例如百度百科、医学网站的Link等等;
  3. 从文本中挖掘。用户可能提供一些非标准化表达,这时候就需要用到新词挖掘技术,可以参考美
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值