crf++中文命名实体识别

(在新浪搜索部实习,方向为基于crf的中文命名实体识别,现将自己一个月的学习总结如下,本人也是初学者,文中所讲仅为个人理解,错误之处欢迎各位指正)

  第一部分:基础知识

  1.1 命名实体识别概念
命名实体识别: 把文本中出现的命名实体包括人名,地名,组织机构名等实体识别出来并且加以归类,它是自然语言处理的基本任务,是机器翻译,信息检索等技术的基础。
  1.2:命名实体识别的方法           1)基于规则的方法         2)基于统计的方法

1)基于规则的方法
eg:“胡德君作为实习生加入了新浪公司”。
  在基于规则的系统中,它会根据【人名】作为一名【职位名】 加入了【机构名】这样的规则,提取出“新浪公司”这个机构名。
    缺点:规则的设计过程耗时且容易产生错误,难以涵盖所有的语言现象,需要富有经验的语言专家才能完成,并且可移植性差。
2)基于统计的方法
        主要是利用标注语料库来训练某个字作为命名实体组成部分的概率,并用它们来计算某个候选字段作为命名实体的概率值,若大于某一阈值,则识别为命名实体。
        与规则方法相比:基

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值