二. CNLP-NLP-分词

最新推荐文章于 2024-08-18 09:15:00 发布

一个小白的自述

最新推荐文章于 2024-08-18 09:15:00 发布

阅读量327

点赞数

分类专栏： NLP 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/selfimpro_001/article/details/91128662

版权

NLP 同时被 2 个专栏收录

24 篇文章 1 订阅

订阅专栏

自然语言处理

12 篇文章 0 订阅

订阅专栏

中文分词-即将中文汉字序列切分成一个一个单独的词语，中文分词是NLP的第一步。源自-《NLP汉语自然语言处理原理与实践》

一. pyltp

安装pyltp：

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pyltp

部署语言模型库：
具体部署方法参考：哈工大语言云（LTP）本地安装使用及Python调用
模型：链接: https://pan.baidu.com/s/1tmPUMMFPBgzXbm8JbMIyYg 提取码: uy11

二. jieba

这个是本人最常用的分词方法

三. StanfordfordNLP

四. HanLP

五. 分词标准

粗粒度分词：将词作为语言处理的最小的基本单位进行切分，主要用于NLP中的各种应用中；
细粒度分词: 不仅对词汇进行切分，也对词汇内部的语素进行切分。一般细粒度切分的对象为专有名词，因为专有名词常表现为几个一般名词的合成。常用于搜索引擎领域中。
一般在索引的时候使用细粒度的分词保证召回率，在查询的时候使用粗粒度分词保证精度。
举例：

六. 歧义切分

在这里插入图片描述

针对上面的问题出现的早起的机械分词系统：该方法是基于最大匹配方法作为最基本的分词算法，也称为MM（The Maximum Matching Method)。基本思想：

举例如下：
上下文相关性：文本中第n个词的出现与其前后第n-m到n+m个词有高度的相关性，而与这个范围之外的其他词的相关性较低，把[-m, m]范围也称为窗口范围。

七. 未登录词识别

在这里插入图片描述

一个小白的自述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。