基于主题策略的实体识别准确率优化

最新推荐文章于 2024-03-10 11:53:25 发布

To_be_brave1

最新推荐文章于 2024-03-10 11:53:25 发布

阅读量1.5k

点赞数

分类专栏：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012879957/article/details/80564189

版权

本文探讨了如何运用主题模型，特别是LDA，来优化命名实体识别的准确率。通过解决一词多义问题，利用文档的语义信息进行实体消歧。文章详细介绍了开发环境、语料库的预处理、主题抽取（具体和抽象主题）、LDA模型的运用以及实体消歧策略，最后提到了评估方法。

摘要由CSDN通过智能技术生成

传统的命名实体识别中，主要是基于规则和词典的方法，在实体识别过程中没有给出具体的语义信息，因此会存在一词多义和多词一义的问题，对实体的消歧就是提升实体识别准确率的关键部分。

主题模型是对文档隐含的主题进行建模的方法，是语义挖掘的利器，既可以衡量文档之间的语义相似性，还可以解决多义词的问题。在主题模型中，主题是一个概念，表现为一系列相关的词，通过命名实体在不同主题下的条件概率分布来达到实体消歧的目的。如“苹果”这个词可能是水果，也可能指苹果公司。通过求出的“词语－主题”概率分布，我们就可以知道“苹果”都属于哪些主题。LDA(Latent Dirichlet Allocation)是其中应用最广泛的模型。

二、开发环境

l Windows7 i5处理器，2.50GHz

l Python3.6

l Genism主题模型库

l Sklearn机器学习库

l Jieba中文分词

l Hadoop集群

三、语料库与预处理

1. 语料库的获取：

a) 语料库的数据主要来自58招聘职位新增日志

b) 数据位于集群中的位置：/home/hdp_lbg_s

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

To_be_brave1 CSDN认证博客专家 CSDN认证企业博客

码龄11年

44: 原创

6万+: 周排名

191万+: 总排名

47万+: 访问

: 等级

3852: 积分

116: 粉丝

194: 获赞

31: 评论

968: 收藏

私信

关注

热门文章

分类专栏

redis 7篇
java 12篇
docker 1篇
开发运维 3篇
k8s 1篇
jenkins 3篇
spring 3篇
Raneto 1篇
mysql
springcloud 1篇
人工智能 9篇
机器学习 30篇
知识图谱 7篇
自然语言处理 32篇
hadoop 4篇
Spark 15篇
推荐系统 5篇
C++ 7篇
linux 3篇
大数据 10篇
python 8篇
深度学习 7篇
leetcode 8篇
笔试 12篇

最新评论

k8s中部署发布应用
画蛇添足: 非常不错，可以了解一下DHorse(https://gitee.com/i512team/dhorse)，是一个以应用为中心的云原生DevOps系统，能够实现持续集成、持续部署、微服务治理等功能，主要特点：部署简单、操作简洁、功能快速。
处理数据不平衡
ANCHOR.: 感谢分享，学习到了！
准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure
emo_o: 大佬讲的非常好没有机器学习基础也可以看懂另外有一个错误，F1 = (2* P * R) / (P + R)
处理数据不平衡
nimnimbb: 我只能说，感谢万分，感谢分享！感谢感谢
T-BOX
猪猪侠很忙: 文章没有图呢？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。