用 Python 分析《红楼梦》（1）

最新推荐文章于 2024-07-07 18:55:48 发布

weixin_34034261

最新推荐文章于 2024-07-07 18:55:48 发布

阅读量3.9k

点赞数 2

文章标签： python 人工智能数据结构与算法

原文链接：https://yq.aliyun.com/articles/539211

版权

本文介绍了作者使用自然语言处理和机器学习算法对《红楼梦》进行分析的过程，包括文本预处理、构建全文索引、制作字典、无字典分词以及维特比算法在分词中的应用。作者探讨了现有方法的不足，如分词准确性问题，并分享了自己的实验结果和代码开源链接。

摘要由CSDN通过智能技术生成

1 前言

两个月以来，我通过互联网自学了一些文本处理的知识，用自然语言处理和机器学习算法对《红楼梦》进行了一些分析。这个过程中我找到了一些有趣的发现，所以我想写一篇文章，既㲌与大家分享和讨论实验结果，也顺便做一个整理和总结。（其实虽说是两个月，但是中间停顿了一段时间，真正在做的时间大概是两周左右）

我开始做这件事情是因为之前看到了一篇挺好玩的文章，大概内容是，作者用“结巴分词”这个开源软件统计了红楼梦中各词汇的出现次数（也就是词频），然后用词频作为每个章回的特征，最终用“主成份分析”算法把每个章回映射到三维空间中，从而比较各个章回的用词有多么相似。（文章：用机器学习判定红楼梦后40回是否曹雪芹所写）作者的结论是后四十回的用词和前八十回有明显的差距。

看完文章之后，我觉得有两个小问题：首先，作者用的结巴分词里的词典是根据现代文的语料获得的（参见“结巴分词”开发者之前对网友的回复：模型的数据是如何生成的？ · Issue #7 · fxsjy/jieba），而《红楼梦》的文字风格是半文半白的，这样的分词方法准确性存疑；其次，虽然作者用《三国演义》做了对比，但是依然没有有力地证明用词差异没有受到情节变化的影响。于是我决定自己做一遍实验，用无字典分词的方法来分词，并且尝试剔除情节对分析的影响，看看结果会不会有所不同。

本来开始写的时候觉得 5000 字就差不多了，结果最后成文的时候竟然达到了 1.3 万字。即使这样，我也只能解释一下算法的大致工作过程，至于详细的原理，如果感兴趣的话可以找其他资料去学习，我也会附上一些资料链接。不然如果我写的面面俱到的话感觉可以出书了……至于结果如何？先卖个关子。（诶，不要直接滑到底啊！）

程序已在 GitHub 上开源，使用方法参见 README 文件：LouYu2015/analysis_on_the_story_of_a_stone。考虑到版权问题，我决定不提供《红楼梦》原文。如果想复现实验结果的话，可以去找小说网站下载。（更新：根据网友提醒，《红楼梦》因为作者去世远远超过 100 年而进入公有领域，不受版权限制。因此我把原文也补充了上去，现在按照说明运行程序即可复现结果。也可在这里获取《红楼梦》全文：紅樓夢 - 维基文库，自由的图书馆。）

2 文本预处理

这一步很基础，就不赘述了。简单来说，就是要根据标点符号，把每一个分句都切开，然后用统一的符号（这里我用的是井号）来标记切分点。这样对于后面的程序来说就好处理一些了。

虽然目标很简单，然而，有些细节还是需要额外处理一下的。比如，我找到的文本里，所有“性”啊，“露”啊之类的字都被用『』框了起来（可能为了过滤少儿不宜的内容？我怎么觉得框起来以后更奇怪了……），所以这种标点需要被删掉，不能当作分割符号。另外，每章开头的回目编号也需要去掉，因为这不算小说的内容。最后，文本中出现了一些电脑中没有的罕见字，不过好在文本中这些罕见字都在括号内用拆分字型的方法标了出来（比如“（左王右扁）”），所以理论上我可以把这些内容替换成一些原文中没有的字符（比如特殊符号），最后再替换回去。不过我太懒了，所以没有做这样的替换。理论上罕见字对后面的分析也不会有很大，因为后面涉及到的都是出现频率比较高的单词。

处理后的效果是这个样子：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

3 构建全文索引

得到处理后的文本之后，我需要建立一个全文索引。这样是为了快速地查找原文内容，加速后面的计算。我使用了后缀树这个结构作为索引。这个数据结构比较复杂，所以我们可以先谈谈更简单的字典树。

3.1 字典树

首先，我们看看字典树的样子：

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

Free Image on Pixabay - Landscape, Tree, Flowers, Book

啊错了，这个才是字典树……

最低0.47元/天解锁文章

weixin_34034261

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
用 Python 分析《红楼梦》（1）

1 前言两个月以来，我通过互联网自学了一些文本处理的知识，用自然语言处理和机器学习算法对《红楼梦》进行了一些分析。这个过程中我找到了一些有趣的发现，所以我想写一篇文章，既㲌与大家分享和讨论实验结果，也顺便做一个整理和总结。（其实虽说是两个月，但是中间停顿了一段时间，真正在做的时间大概是两周左右）我开始做这件事情是因为之前看到了一篇挺好玩的文章，大概内...
复制链接

扫一扫