二. CNLP-NLP-分词

中文分词-即将中文汉字序列切分成一个一个单独的词语,中文分词是NLP的第一步。源自-《NLP汉语自然语言处理原理与实践》

一. pyltp
  1. 安装pyltp
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pyltp
  1. 部署语言模型库:
    具体部署方法参考:哈工大语言云(LTP)本地安装使用及Python调用
    模型:链接: https://pan.baidu.com/s/1tmPUMMFPBgzXbm8JbMIyYg 提取码: uy11
二. jieba

这个是本人最常用的分词方法

三. StanfordfordNLP
四. HanLP
五. 分词标准
  • 粗粒度分词:将词作为语言处理的最小的基本单位进行切分,主要用于NLP中的各种应用中;
  • 细粒度分词: 不仅对词汇进行切分,也对词汇内部的语素进行切分。一般细粒度切分的对象为专有名词,因为专有名词常表现为几个一般名词的合成。常用于搜索引擎领域中。
  • 一般在索引的时候使用细粒度的分词保证召回率,在查询的时候使用粗粒度分词保证精度。
  • 举例:
    在这里插入图片描述
六. 歧义切分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 针对上面的问题出现的早起的机械分词系统:该方法是基于最大匹配方法作为最基本的分词算法,也称为MM(The Maximum Matching Method)。基本思想:
    在这里插入图片描述
    举例如下:
    在这里插入图片描述
    在这里插入图片描述
  • 上下文相关性:文本中第n个词的出现与其前后第n-m到n+m个词有高度的相关性,而与这个范围之外的其他词的相关性较低,把[-m, m]范围也称为窗口范围。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
七. 未登录词识别

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值