[笔记] Introduction to Shallow Language Processing

最新推荐文章于 2024-05-16 19:21:42 发布

cos2cot

最新推荐文章于 2024-05-16 19:21:42 发布

阅读量251

点赞数

分类专栏： Search Engine 笔记文章标签： search engine 笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cos2cot/article/details/78245887

版权

Search Engine 笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Bag of Words

解释：

搜素引擎用词袋模型这种shallow form理解语言。词袋模型的特征有：

1）忽略word order；

2）忽略stopwords（像the，a这种频率高又没什么实际意义的词）；

3）把words变成terms，将root相同的words变成一个term，比如cats->cat

优缺点：

pros：简单；有效

cons：有损的，无法从词袋还原到原文档；忽略了词句篇的语义信息

Language-independent properties

def: 与词汇特征、词形、语法等无关的特性。（？ not sure）

example

以华尔街日报为例：

term frequency的分布非常skewed：频繁出现的terms很少，很多都是罕见的terms。

这个分布的样式与人类使用语言的习惯有关，不同的语言和corpus中，曲线的斜率和具体词汇的排名和频率会发生变化。

Heaps' Law

描述vocabulary大小（total number of terms）和总词数（total number of word occurrences）的关系。

根据Heapf‘s Law，vocabulary的大小会一直随着word occurrences总数的增长而增长，虽然越来越慢，但不会饱和。

Zipf’s Law

描述collection term frequency和term‘s rank的关系。

ctf: collection term frequency -- how often term t occurs in C

N: total word occurrences in corpus C

A: constant, usually 0.1 for English

R: rank of term t

不需要知道collection里含有多少文章，文章的具体内容就能得到ctf和rank的关系。

由Zipf‘s Law可知：

1）few term频繁出现：

rank 1的term占总word occurrence的10%；

排名前5的terms占有23%的occurrences；

排名前100的terms占有52%的occurrences

2）大多数terms非常罕见：

50%的terms出现1次；

91%的terms的occurrence小于10次

Heapf's Law 和Zipf's Law的作用

1）帮助系统设计者预计重要data structure（term dictionary，inverted list 的大小的分布情况）需要占用的内存大小。这些预计无需了解corpus中具体的内容和语言，非常的方便。

2）根据这些统计特性，帮助设计者更好得设计data structure（比如把doc-term矩阵换成了inverted list）。

3）不同inverted lists之间，大小变化很大：

rank 1的term的inverted list含有10%的总term occurrences；

vocabulary中，50%的term的inverted list只有一个occurrence；

83%的term的inverted list记录的出现次数小于5；

所以软件应该能hold住对不同大小的inverted list的处理。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[笔记] Introduction to Shallow Language Processing

Bag of Words解释：搜素引擎用词袋模型这种shallow form理解语言。词袋模型的特征有：1）忽略word order；2）忽略stopwords（像the，a这种频率高又没什么实际意义的词）；3）把words变成terms，将root相同的words变成一个term，比如cats->cat优缺点：pros：简单；有效c
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。