中文分词 & jieba

1  词是中文 最小的独立有意义的语言成分。

2 中文以字为单位而不用空格分割。

3 分词问题  是中文文本处理的基础性工作,深刻影响后续中文处理效果。

     词怎么规范的切分-->词的定义是什么?

     歧义切分

     交集型切分

     多义组合型

     未登录词 :[新词,自造词]

4  方法演变

4.1 基于规则实现

     有 字典,词库数据集,基于匹配的规则进行明确词的存在

     正向最大匹配,逆向最大匹配,最小切分法等

4.2 基于统计 实现

      词频度统计(jieba)

4.3 基于知识理解 (正在实验中的)

     句法,     语法     语义     上下文信息   等

ltp nltk,jieba

5   jieba  中文分词函数库

    原理 :

     5.1  前缀词典实现的高效的词图扫描,生成句中字成词的所有情况的有向无环图 {0:[0,1,3]} 抗日战争,中国公民

     5.2 动态规划查找最大概率路径  在句中从右往左反向计算最大概率

          基于词频的最大切分组合

     5.3 对未登录词  使用隐马尔科夫 HMM 模型

使用

    精确模式(最精确的切分词)cut(str,cut_all=,hmm=)

    全模式(所有可能的词)

   搜索引擎模式(精确模式中对长词进行切分,用于搜索) cut_for_search(str,hmm)

   繁体分词

   自定义分词

 

6   TF-IDF  term frequency-inverse document frequency

   信息检索与数据挖掘的加权技术

   TF  关键词在一文章中出现的次数 /  全文字数    (词数/字数)

    IDF 逆文档频率  log( 语料库文档总数 / 1+包括该词的文档总数)   判断词是不是普遍存在于大量文档中

   兼顾词频与新词

   保留可提供更多信息的重要词

 

 

    

 

 

jieba是一个开源的中文分词工具,可以将中文文本切分成词语或词汇单位,是Python库中广泛用于自然语言处理(NLP)和文本分析领域的工具。jieba具有以下主要特点和功能: - 中文分词jieba 可以将中文文本按照词语切分,使得文本可以更容易地被处理和分析。分词是中文文本处理的基础步骤,对于词频统计、文本分类、情感分析等任务非常重要。 - 多种分词模式:jieba 支持不同的分词模式,包括精确模式、全模式和搜索引擎模式。用户可以根据具体任务需求选择不同的模式。 - 自定义词典:用户可以创建自定义词典,以确保特定词汇被正确切分。这对于处理特定行业或领域的文本非常有用。 - 高效快速:jieba 实现了基于前缀词典和动态规划的分词算法,因此在速度上表现出色。 - 关键词提取:jieba 还提供了关键词提取功能,可以帮助用户识别文本中的关键词,有助于文本摘要和信息检索等任务。 使用jieba库进行中文分词的步骤如下: 1.导入jieba库 ```python import jieba ``` 2.使用jieba库的cut()方法进行分词 ```python text = "我爱自然语言处理" seg_list = jieba.cut(text, cut_all=False) print(" ".join(seg_list)) ``` 输出结果为: ``` 我 爱 自然语言 处理 ``` 3.使用自定义词典 ```python jieba.load_userdict("userdict.txt") ``` 其中,userdict.txt为自定义词典文件,每行一个词汇,格式为:词汇 词频 词性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值