关于文本相似度计算开发包的构想

原创于 2006-08-12 11:51:00 发布

· 3.3k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #python #测试 #算法 #扩展 #工具

HNC工作历程同时被 2 个专栏收录

27 篇文章

订阅专栏

C++&Python&PHP程序设计

2 篇文章

订阅专栏

最近有一个想法，想用python实现一个小型开发包，以方便的实现并测试各种文本相似度计算算法，输入之一是一个精心建立的小型测试文本语料库，之二则是检索请求文本，输出则可以依据配置的相似度计算方法输出排好序的测试文本序列。因为相似度计算并排序是搜索引擎的核心之一，而对于一个成熟的搜索体系去实验各种想法是很不方便的，所以很想有这样一个工具。

大体上可以分为这样几个模块：

统一数据管理模块：管理原始文本数据，主要负责读写以及编码转换工作。
索引建立模块：对统一数据管理模块输出的unicode编码的文本流进行建立索引，并写入索引文件中。建立索引的算法接口应该是方便扩展实现的。
搜索排序模块：对检索请求和索引文件中的数据进行匹配，计算相似度并排序。相似度计算算法是本开发包对外的主要扩展接口。（希望是一经调整相似度计算算法，同样检索请求的检索效果能够快速得到反映，这样就非常方便观察、设计、测试各种计算方法）
检索与展示命令解析模块：这是本开发包运行时的用户界面，主要采取命令行方式，以方便检索测试和调整排序、展示格式。

这样一个小型工具，其可用性一方面取决于其扩展方便程度，另一方面取决于小型测试语料库的建立，这样一个语料库要适应各种索引形式的需要，因为这里重点不是对这些文本做自然语言处理，所以诸如分词、短语识别与结构分析等，语料中应该由专家进行标注，对这样一个熟语料库，同时要注意其类型或题材的分布，并设计好语料库的结构层次。如此，这样一个统一的语料库，加上这样一个软件工具开发包，想来对于我们这个行业的相关研究或技术人员一定很有用途，很有意义。

首先从python的文件操作、编码转换开始做起。有兴趣的朋友可以联系偶，进行讨论哦。（另外，渴望认识熟悉python的朋友，这样工作会快很多呢）

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。