1 词是中文 最小的独立有意义的语言成分。
2 中文以字为单位而不用空格分割。
3 分词问题 是中文文本处理的基础性工作,深刻影响后续中文处理效果。
词怎么规范的切分-->词的定义是什么?
歧义切分
交集型切分
多义组合型
未登录词 :[新词,自造词]
4 方法演变
4.1 基于规则实现
有 字典,词库数据集,基于匹配的规则进行明确词的存在
正向最大匹配,逆向最大匹配,最小切分法等
4.2 基于统计 实现
词频度统计(jieba)
4.3 基于知识理解 (正在实验中的)
句法, 语法 语义 上下文信息 等
ltp nltk,jieba
5 jieba 中文分词函数库
原理 :
5.1 前缀词典实现的高效的词图扫描,生成句中字成词的所有情况的有向无环图 {0:[0,1,3]} 抗日战争,中国公民
5.2 动态规划查找最大概率路径 在句中从右往左反向计算最大概率
基于词频的最大切分组合
5.3 对未登录词 使用隐马尔科夫 HMM 模型
使用
精确模式(最精确的切分词)cut(str,cut_all=,hmm=)
全模式(所有可能的词)
搜索引擎模式(精确模式中对长词进行切分,用于搜索) cut_for_search(str,hmm)
繁体分词
自定义分词
6 TF-IDF term frequency-inverse document frequency
信息检索与数据挖掘的加权技术
TF 关键词在一文章中出现的次数 / 全文字数 (词数/字数)
IDF 逆文档频率 log( 语料库文档总数 / 1+包括该词的文档总数) 判断词是不是普遍存在于大量文档中
兼顾词频与新词
保留可提供更多信息的重要词