Python jieba分词知识整合

Python jieba分词知识整合

文章目录

说明

本文文章没有代码层级的内容,均是根据作者本人最近了解下来的情况,在此做一个关于结巴分词的文章的整理,便于之后查阅相关资料方便

Jieba安装说明

  这是最基础的,各篇jieba相关的介绍文章均有提及
  对于python2.X版本,可以使用easy_install jieba,或者pip install jieba 进行安装
  对于python3.X版本,可以使用pip3 install jieba进行安装

Jieba 分词原理介绍

  介绍使用Python jieba进行分词的原理及实现
  做分词,可以了解一下你所使用的分词工具进行分词的原理,这样便于你更好地使用该分词工具,否则你需要优化分词效果时会感觉到困难,中文分词原理可分为:
  - 基于规则的方法:基于字典、词库的匹配方法
  - 基于统计的方法:基于词频度统计的分词方法
  - 基于知识理解的分词方法[由于汉语的语言复杂性,该方法还处于实验阶段]
相关文章:

hello_echo的博客《jieba分词原理》,介绍的较简单,详细可参考下面两篇文章
狮子座明仔的博客《中文分词原理和实现》,这篇对各种分词算法原理均作了较详细的介绍
伏草惟存的博客《结巴中文分词源码分析》,这篇同第一篇,不过对jieba的分词原理和算法介绍更为详细,可着重理解

Jieba 分词实现

  在浏览了很多片文章之后,觉得伏草惟存整理的较为全面,我觉得看了他的整理的《jieba资料汇编》系列文章之后就可以较为全面的了解jieba的使用方法了,文章分了三部分:

  1. 《结巴中文分词官方文档分析》,包含了:

    结巴中文分词:基于Python的中文分词

    jieba分词特点
    jieba安装说明
    jieba主要功能:
      -分词
      -添加自定义词典
        -自定义词典用法示例
        -调整自定义词典
      -提取关键词
       -基于TF-IDF算法关键词抽取
       -基于TextRank关键词抽取
     -词性标注
     -并行分词
     -Tokenize:返回词语在原文起止位置
     -ChineseAnalyser for whoosh 搜索引擎
     -命令行分词

    其他语言实现

    Jieba Java版、C++版、Node.js版、Erlang版、R版、iOS版、PHP版、.NET版(C#)、Go版

    系统集成

    Solr系统集成

    分词遇到的常见问题

  2. 《结巴中文分词源码分析》,包含了中文分词的原理和Jieba分词源码介绍:

    中文分词的原理

    中文分词的特点
    中文分词的难点
    汉语分词方法

    结巴中文分词介绍(详见篇一)
    结巴分词算法思想
    结巴分词步骤
    前缀字典
    DAG
    基于词频最大切分组合
    未登录词问题
    HMM
    结巴 HMM 分析

  3. 《结巴中文分词基本操作》,这部分是对结巴中文分词官方文档分析》中所提到jieba主要功能的操作代码实现,内容同jieba功能

适用于Python的其他语言库

   除了jieba之外,还有其他的中文分词语言库可以使用,大家可以看一看 [ Python分词库 ],其中有各种分词库,可以更具需要学习使用。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值