分词
机械分词
依据词典匹配分词
逆向匹配效果一般优于正向匹配
最大匹配先匹配长词,递减至短词,长度为2时仍未匹配,单词切割即可
- 正向最大匹配
- 正向最小匹配
- 逆向最大匹配
逆向最小匹配
一体化分词
考虑统计词频,寻找在给定字串上最大概率的分割序列(以词频统计做概率似然)
歧义字段发现:双向扫描分词结果不一致判为歧义字段词性标注:用词性标注分别切割计算分词路径概率值,选取大概率分词路径
- 概念标注:概念标注切分求大概率分词路径
互信息,X方检验
标注
词性标准与概念标注
![这里写图片描述](https://img-blog.csdn.net/20171005164350211?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVGhlT25lQWMx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)![这里写图片描述](https://img-blog.csdn.net/20171005165743703?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVGhlT25lQWMx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)消除歧义:上下文,语境,歧义间统计差异,文本领域特征
![这里写图片描述](https://img-blog.csdn.net/20171005170108266?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVGhlT25lQWMx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)对于语法分析,句子级别的衡量标准更有意义
对于语义分析,词级别的的衡量标准更好一些
隐马尔可夫模型
参考统计学习方法
稀疏事件处理
- 计数等价类Gr:发生次数相同的事件构成一个等价类
- Nr等价类成员个数,Pr计数r的等价类中事件发生的概率,计数等价类中事件有相同的概率
句法分析
篇章分析
- 早期依赖词频的项选择方法:zipf法则
- tf-idf
- 信噪比
- 项区分度
常规处理获取词项方式,第一遍切词,第二遍统计方法发现未登录词和领域词,第三将高频词组合成短语降低词频,将低频词归类为词语类提高频率
项分类
低频词合并项类之后次品增加,可以提高低频词对整体的影响
相似项合并,使得项类之间相关程度减小,独立性提高
应用:
- 情感分析
- 新闻推荐
- 文本聚类
应用
自动索引
候选主题词集的简历
有索引时用索引模糊匹配文章中的嫌疑主题词
无索引时用倾向于选择短语、专有名词、名词等作为主题词权重计算
利用上文提到的项权重计算方法,衡量权重
除了频率信息,位置信息也是权重重要因素,标题,段首句,首尾段出现的词都比较关联主题词主题词生成
考虑应用场景中主题词的覆盖程度、占比,权重、数目等要求确定
信息检索
- 检索框架
- 模糊检索
- 概率模型
参考:
《大规模中文文本处理》吴立德
《统计学习方法》李航
《计算语言学讲义》中科院计算所刘群