中文文本处理传统方法

最新推荐文章于 2024-09-11 15:20:30 发布

TheOneAc1

最新推荐文章于 2024-09-11 15:20:30 发布

阅读量1.1k

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TheOneAc1/article/details/78161194

版权

自然语言处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

分词

机械分词

依据词典匹配分词
逆向匹配效果一般优于正向匹配
最大匹配先匹配长词，递减至短词，长度为2时仍未匹配，单词切割即可

正向最大匹配
正向最小匹配
逆向最大匹配
逆向最小匹配
一体化分词

考虑统计词频，寻找在给定字串上最大概率的分割序列（以词频统计做概率似然）
歧义字段发现：双向扫描分词结果不一致判为歧义字段
词性标注：用词性标注分别切割计算分词路径概率值，选取大概率分词路径
概念标注：概念标注切分求大概率分词路径

互信息，X方检验

标注

词性标准与概念标注

![这里写图片描述](https://img-blog.csdn.net/20171005164350211?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVGhlT25lQWMx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

消除歧义：上下文，语境，歧义间统计差异，文本领域特征

![这里写图片描述](https://img-blog.csdn.net/20171005165743703?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVGhlT25lQWMx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

对于语法分析，句子级别的衡量标准更有意义
对于语义分析，词级别的的衡量标准更好一些

![这里写图片描述](https://img-blog.csdn.net/20171005170108266?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvVGhlT25lQWMx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

隐马尔可夫模型

参考统计学习方法

稀疏事件处理

计数等价类Gr：发生次数相同的事件构成一个等价类
Nr等价类成员个数，Pr计数r的等价类中事件发生的概率，计数等价类中事件有相同的概率

这里写图片描述

这里写图片描述

句法分析

篇章分析

这里写图片描述

早期依赖词频的项选择方法：zipf法则

这里写图片描述

tf-idf

这里写图片描述

信噪比

这里写图片描述

项区分度

这里写图片描述

这里写图片描述

常规处理获取词项方式，第一遍切词，第二遍统计方法发现未登录词和领域词，第三将高频词组合成短语降低词频，将低频词归类为词语类提高频率

项分类

低频词合并项类之后次品增加，可以提高低频词对整体的影响
相似项合并，使得项类之间相关程度减小，独立性提高

应用：
- 情感分析
- 新闻推荐
- 文本聚类

应用

自动索引

候选主题词集的简历

有索引时用索引模糊匹配文章中的嫌疑主题词
无索引时用倾向于选择短语、专有名词、名词等作为主题词
权重计算

利用上文提到的项权重计算方法，衡量权重
除了频率信息，位置信息也是权重重要因素，标题，段首句，首尾段出现的词都比较关联主题词
主题词生成

考虑应用场景中主题词的覆盖程度、占比，权重、数目等要求确定

信息检索

检索框架
模糊检索
概率模型

参考：
《大规模中文文本处理》吴立德
《统计学习方法》李航
《计算语言学讲义》中科院计算所刘群

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。