文本图像的统计分析与分类:基于PrIx的创新方法
1. Zipf曲线、运行词与词库大小
1.1 词频估计
在文本分析中,特定单词在文本集合中的使用频率是一个重要的统计量。对于文本集合 (X) 或 (X) 中的特定单词 (v),其使用频率可通过以下公式估计:
[
E[n(v, X)] = \sum_{x \subseteq X} E[n(v, x)] ;
E[n(v, X)] = \sum_{X \in X} E[n(v, X)]
]
此外,我们还可以估计包含给定单词 (v) 的图像文档的预期数量 (E[m(v, X)]):
[
E[m(v, X)] \approx \sum_{X \in X} \max_{x \subseteq X} P(R| x, v) \approx \sum_{X \in X} \max_{x \subseteq X, b \subseteq x} P(R| x, v, b)
]
1.2 Zipf曲线的概念
Zipf曲线描绘了每个单词的频率与其在按频率降序排列的单词列表中的排名之间的函数关系。在大多数自然语言中,单词的出现频率并不均衡,Zipf曲线大致遵循Zipf定律,即自然语言中任何单词的频率与其排名成反比。当两个坐标轴都采用对数刻度时,曲线会变成一条斜率约为 -45 度的下降直线。如果文本偏离自然语言,Zipf曲线就会偏离这种“自然”形状。
例如,从Bentham测试集的GT转录本计算得到的Zipf曲线(如图1所示),非常符合自然Zipf定律。