依存句法分析器的简单实现

最新推荐文章于 2024-08-07 09:45:32 发布

adnb34g

最新推荐文章于 2024-08-07 09:45:32 发布

阅读量3.9k

点赞数 2

分类专栏：自然语言处理文章标签：依存句法分析自然语言处理 hanlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/adnb34g/article/details/83105360

版权

本文介绍了一个简单的汉语依存句法分析器的实现，基于词汇+词性生成联合概率模型，使用Prim算法寻找最大生成树。通过统计语料库中的频次信息，生成有向图，并在有向图上应用Prim算法计算最大生成树，最终以CoNLL格式输出。

摘要由CSDN通过智能技术生成

生成式句法分析指的是，生成一系列依存句法树，从它们中用特定算法挑出概率最大那一棵。句法分析中，生成模型的构建主要使用三类信息：词性信息、词汇信息和结构信息。前二类很好理解，而结构信息需要特殊语法标记，不做考虑。

本文主要利用了词汇+词性生成联合概率模型，使用最大生成树Prim算法搜索最终结果，得到了一个简单的汉语依存句法分析器。

开源项目

本文代码已集成到HanLP中开源：http://hanlp.dksou.com/

基本思路

统计词语WordA与词语WordB构成依存关系DrC的频次，词语WordA与词性TagB构成依存关系DrD的频次，词性TagA与词语WordB构成依存关系DrE的频次，词性TagA与词词性TagB构成依存关系DrF的频次。为句子中词语i与词语j生成多条依存句法边，其权值为上述四种频次的综合（主要利用词-词频次，其余的作平滑处理用）。取边的权值最大的作为唯一的边，加入有向图中。

在有向图上使用Prim最大生成树算法，计算出最大生成树，格式化输出。

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。