中文文本处理传统方法

分词

机械分词

依据词典匹配分词
逆向匹配效果一般优于正向匹配
最大匹配先匹配长词,递减至短词,长度为2时仍未匹配,单词切割即可

  • 正向最大匹配
  • 正向最小匹配
  • 逆向最大匹配
  • 逆向最小匹配

  • 一体化分词

    考虑统计词频,寻找在给定字串上最大概率的分割序列(以词频统计做概率似然)
    歧义字段发现:双向扫描分词结果不一致判为歧义字段

  • 词性标注:用词性标注分别切割计算分词路径概率值,选取大概率分词路径

  • 概念标注:概念标注切分求大概率分词路径
    互信息,X方检验

标注

词性标准与概念标注

![这里写图片描述](https://img-blog.csdn.net/20171005164350211?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVGhlT25lQWMx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

消除歧义:上下文,语境,歧义间统计差异,文本领域特征

![这里写图片描述](https://img-blog.csdn.net/20171005165743703?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVGhlT25lQWMx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

对于语法分析,句子级别的衡量标准更有意义
对于语义分析,词级别的的衡量标准更好一些

![这里写图片描述](https://img-blog.csdn.net/20171005170108266?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVGhlT25lQWMx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

隐马尔可夫模型

参考统计学习方法

稀疏事件处理

  • 计数等价类Gr:发生次数相同的事件构成一个等价类
  • Nr等价类成员个数,Pr计数r的等价类中事件发生的概率,计数等价类中事件有相同的概率

这里写图片描述
这里写图片描述

这里写图片描述

句法分析

篇章分析

这里写图片描述

  • 早期依赖词频的项选择方法:zipf法则

这里写图片描述

  • tf-idf

这里写图片描述
这里写图片描述

  • 信噪比

这里写图片描述
这里写图片描述

  • 项区分度

这里写图片描述
这里写图片描述

这里写图片描述

常规处理获取词项方式,第一遍切词,第二遍统计方法发现未登录词和领域词,第三将高频词组合成短语降低词频,将低频词归类为词语类提高频率

项分类

低频词合并项类之后次品增加,可以提高低频词对整体的影响
相似项合并,使得项类之间相关程度减小,独立性提高

应用:
- 情感分析
- 新闻推荐
- 文本聚类

应用

自动索引

  • 候选主题词集的简历

    有索引时用索引模糊匹配文章中的嫌疑主题词
    无索引时用倾向于选择短语、专有名词、名词等作为主题词

  • 权重计算

    利用上文提到的项权重计算方法,衡量权重
    除了频率信息,位置信息也是权重重要因素,标题,段首句,首尾段出现的词都比较关联主题词

  • 主题词生成

    考虑应用场景中主题词的覆盖程度、占比,权重、数目等要求确定

信息检索

  • 检索框架
    这里写图片描述
  • 模糊检索
    这里写图片描述
    这里写图片描述
  • 概率模型

参考:
《大规模中文文本处理》吴立德
《统计学习方法》李航
《计算语言学讲义》中科院计算所刘群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值