统计N元语言模型生成算法：简单中文词频统计(文末获取代码)

最新推荐文章于 2025-03-12 11:06:14 发布

AI柠檬

最新推荐文章于 2025-03-12 11:06:14 发布

阅读量753

点赞数

分类专栏：智能语音技术文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/baidu_25126631/article/details/123490276

版权

智能语音技术专栏收录该内容

3 篇文章

订阅专栏

本文介绍了如何通过简化方法进行中文词频统计，用于自然语言处理中的关键词发现。通过大数定理，从大量文本中抽取高频率的二字词、三字词和四字词，例如“超算”和“太湖之光”。虽然这种方法精度有限，但作为复杂模型的替代，可用于快速生成关键词。提供了Java、Python3、C#和VB.NET的代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文首发于 AI柠檬博客，原文链接：统计N元语言模型生成算法：简单中文词频统计 | AI柠檬

做自然语言处理有一个基本的步骤是词频统计，然而我们知道，中文的词语有单音节词、双音节词和多音节词之分，所以中文处理起来远比英文复杂得多。不过，我们可以“偷个懒”，如果要做词频统计的文本量足够大，而且我们只需要知道词频最高的几个词的话，那么我们可以将问题简化一下。

我们简化成什么样呢？很简单，我们通过大量文本来分别每2字词、3字词、4字词乃至5个及以上的字词做一个切分，每统计一个后再向后偏移1字符，如此往复，直到自然切分标识（标点符号、空格或换行符等）或者文本结束，然后再进行下一段切分统计，当然也可以把标点符号也当成普通文本字符切分进去（好处是可以囊括一些特殊用法）。

这个简化之后的方法也是有理论上的可靠性的，因为我们可以通过大数定理得知，一个随机变量出现的频率是随着样本总数增大而逐渐稳定在某个值附近的。那么，我们可以将具有固定搭配的词看为一个随机变量，在现实中，某一个词的使用频率在大的样本条件下是稳定的。这样一来，只要我们有相当多的文本，那么我们就可以生成一个带有词频标识的词典，而且可以发现，词频较高的字符块，是真正的词的概率很高，不是词的概率随着词频的降低而增大。

我们可以使用以下的文本来做测试，文本内容来源于某新闻网站。

得到的切分统计结果是这样的（省略了部分词频过低的内容）：

二字词：

三字词：

四字词：

根据结果，我们可以看到，这篇文章如果用两个字来概括，那就是“超算”，如果用三个字，好像不好说，但我们隐约可以看到“太湖之光”四个字，而四字词统计结果就是这四个字，词频还一样！这篇文章在说什么？那就是两个词：“超算”和“太湖之光”，这正是文章中一直在说明的对象，是不是很神奇？

这是一个比较简单的一种方法，可以用来做一些关键词发现之类的程序。不过毕竟这种方法太过于简化，它的精确度以及可靠性等方面不够好，但是这种方法相当简单，可以作为对于复杂模型和方法的替代品。看过吴军老师的《数学之美》的读者们应该知道，如果有一种简单的方法可以起到不错的效果的时候，那么就用简单的方法，除非我们有更高的要求。

这种方法我在一次出题的时候出的就是这样的题，还是有不少人是可以答出来的。下面我提供这种简单方法的4种编程语言实现的代码供大家学习参考。

程序代码：

点击AI柠檬博客原文链接可获取源代码，包含Java、Python3、C#和VB.NET代码

统计N元语言模型生成算法：简单中文词频统计 | AI柠檬