crf++中文命名实体识别

最新推荐文章于 2024-01-07 14:15:53 发布

胡德君

最新推荐文章于 2024-01-07 14:15:53 发布

阅读量7.2k

点赞数 3

分类专栏： nlp 文章标签： crf++ 中文命名实体识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hudejun007/article/details/38820929

版权

本文介绍了在新浪实习期间学习的crf++在中文命名实体识别中的应用，包括命名实体识别的基础知识、crf++机器学习流程以及提升系统准确率和召回率的策略。通过基于规则和统计方法的对比，强调了统计方法的优势。并讨论了训练语料、特征选取、参数调整以及二次学习在系统性能提升中的作用。

摘要由CSDN通过智能技术生成

（在新浪搜索部实习，方向为基于crf的中文命名实体识别，现将自己一个月的学习总结如下，本人也是初学者，文中所讲仅为个人理解，错误之处欢迎各位指正）

第一部分：基础知识

1.1 命名实体识别概念
命名实体识别：把文本中出现的命名实体包括人名，地名，组织机构名等实体识别出来并且加以归类，它是自然语言处理的基本任务，是机器翻译，信息检索等技术的基础。
1.2：命名实体识别的方法 1）基于规则的方法 2）基于统计的方法

1）基于规则的方法
eg：“胡德君作为实习生加入了新浪公司”。
在基于规则的系统中，它会根据【人名】作为一名【职位名】加入了【机构名】这样的规则，提取出“新浪公司”这个机构名。
缺点：规则的设计过程耗时且容易产生错误，难以涵盖所有的语言现象，需要富有经验的语言专家才能完成，并且可移植性差。
2）基于统计的方法
主要是利用标注语料库来训练某个字作为命名实体组成部分的概率，并用它们来计算某个候选字段作为命名实体的概率值，若大于某一阈值，则识别为命名实体。
与规则方法相比：基

最低0.47元/天解锁文章

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

胡德君 CSDN认证博客专家 CSDN认证企业博客

码龄12年

20: 原创

42万+: 周排名

105万+: 总排名

3万+: 访问

: 等级

519: 积分

8: 粉丝

7: 获赞

6: 评论

17: 收藏

私信

关注

热门文章

分类专栏

数据结构 5篇
数据库 2篇
网页制作 1篇
计算机网络 1篇
发现 2篇
随笔 1篇
shell 6篇
nlp 2篇
json 1篇

最新评论

crf++中文命名实体识别
小紫持续努力中: 这，那最后识别效果好吗
crf++中文命名实体识别
lkw23333: 自己找的数据，用标注工具一点点的标。标到后面我自己都麻了，麻得实体都分不清了
crf++中文命名实体识别
小紫持续努力中: 同问，请问你后来有找到什么方法吗
crf++中文命名实体识别
lkw23333: 楼主如果要做一个城市的地方美食或景点的，必须要自己做个语料库吗，有没有能够快速搭建一个语料库的方法。
crf++中文命名实体识别
胡德君回复喵咖: 就是对召回的数据，再当做优质的学习材料，供机器学习

最新文章

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。