计算机检索课程设计-自动标引

本文介绍了信息检索技术的重要性,特别是在搜索引擎和电子商务中的应用。作者完成了一项关于计算机检索课程的作业,涉及分词、停用词处理、TF-IDF加权和自动标引等步骤。通过这次经历,作者认识到算法在程序设计中的核心地位,并强调了算法课程对于理解和实现实际应用的重要性。
摘要由CSDN通过智能技术生成

    一直觉得情报学/图书馆学没什么意思,但实际上还是之前没有深入了解过,甚为惭愧。信息检索技术乃是现在搜索引擎技术的基石;著名的Elsevier ScienceDirect,Springerlink,EBSCO Academic/Business Source Premier都是网络环境下的期刊文献论文检索利器;还有Amazon等电子商务中的热门推荐,豆瓣网中的图书,电影推荐,背后都是数据挖掘的发挥核心作用,比如协同过滤算法等等;还有知识发现,垃圾邮件过滤等等,不一而足。

    花了四天时间,完成了这个课程作业(源代码),要求很简单:

1、合并使用停用词表和关键词表作为分词词表,应用逆向最长匹配法对所有篇名分词,给出每条篇名对应的分词结果。在屏幕上显示篇名序号、篇名、分词结果。
2、去除停用词(显示在屏幕上)。
3、利用TF-IDF词频加权公式,计算各词的权重,在屏幕上显示每条篇名中各词的权重。
4、根据输入的阈值,确定标引词,并在屏幕上显示标引词。
5、根据输入的标引深度,确定标引词,并在屏幕上显示标引词。

    实现起来也能简单,毕竟数据量不是很大,所以用ADO把数据存入了map容器,其中关键词表以关键字为键,值为包含该关键字的篇名数。然后用逆向最大匹配法配合停用词表进行分词,再利用TF-IDF词频加权公式加权,最后通过设置标引阈值,标引深度显示出选出的标引词。效果图如下:

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值