《数学之美》读书笔记05-0105

文章讨论了分词在工业界的解决方案,指出基本的统计语言模型结合特定技巧能取得良好效果。分词对不同应用的重要性不同,例如动态规划的维特比方法用于寻找最佳分词。文章还提到了分词器的准确性问题,包括越界型和覆盖型错误,并提出颗粒度不一致可不视为错误。此外,为了效率,一个分词器可以支持不同层次的词切分。
摘要由CSDN通过智能技术生成

第四章 谈谈分词

1.关于分词还有两点要说明。首先,这个问题属于已经解决的问题,不是什么难题了。在工业界,只要采用基本的统计语言模型,加上一些业界熟知的技巧就能得到很好的结果,不值得再去花很大的精力去做研究,因为即使能够进一步提高准确率,提升的空间也很有限。第二,英语和主要西方语言原本是没有分词问题的,除了要做文法分析找词组。由于书写时没有空格,所以,用来对中文进行分词的技术,也在英语的手写体识别中派上了用场。

从书上的例子可以看出,不同的分法,最后得出的结果差别很大。不同的应用实现的功能不同,那么就要根据系统面向的客户以及其具体实现的功能等等因素选择分词的方法,究竟是简单的分词进行匹配,还是根据复合词进行匹配?
同时在本章中还提到了一种找到最佳分词的方法,即通过动态规划查找分词后句子出现概率最大的概率–维特比方法(后续补充)

2.针对不同的应用,可以让一个分词器同时支持不同层次的词的切分(减少构造不同分词器的浪费)。如清华大学既可以被看成一个整体,也可以被切分开,然后有不同的应用自行决定切分的颗粒度。
首先需要一个基本词表和一个复合词表。基本词表为无法再分的词。复合词表包含复合词以及它们由哪些基本词构成。
接下来根据基本词表和复合词表各建立一个语言模型。

基本词表的语言模型中字串是输入,词串是输出。
复合词表的语言模型中基本词串是输入,复合词串是输出。
词表和语言模型这两个数据库改变了,但分词器是完全相同的。
避免了构造多个分词器。减少了浪费。

3. 分词器准确性 { 错误 { 越界型错误(清华大学生 − 清华大学 + 生) 覆盖型错误(将贾里尼克拆成四个字) 颗粒度不一致(多是人工分词,可以不作为错误,避免人的看法左右对分词器的度量) \small 3.分词器准确性\begin{cases} 错误\begin{cases}越界型错误(清华大学生-清华大学+生)\\ 覆盖型错误(将贾里尼克拆成四个字)\end{cases}\\颗粒度不一致(多是人工分词,可以不作为错误,避免人的看法左右对分词器的度量)\end{cases} 3.分词器准确性 错误{越界型错误(清华大学生清华大学+生)覆盖型错误(将贾里尼克拆成四个字)颗粒度不一致(多是人工分词,可以不作为错误,避免人的看法左右对分词器的度量)

简单的梳理了一下这一段的逻辑,颗粒度不一致可以不作为错误。

第四章明日继续~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值