信息检索Python

信息检索(IR)
典型的红外系统:
• 搜索一组摘要
• 搜索报纸文章
• 搜索图书馆或档案馆藏
• 搜索公司内部网
• 搜索网页
通常:更多关于统计而不是“语言”,但要检索的对象(和过程)是语言

IR 中的问题
• 如何制定查询?
查询类型:通常是关键字,可以是自然语言
• 文件是如何呈现的?
索引
• 系统如何找到最匹配的文档?
检索模型
• 系统如何有效地找到它?
索引
• 结果如何呈现给我?
未排序列表、排序列表、集群
• 我们如何知道系统是否良好?
评价

索引
找到能够很好地描述文档并组织起来的术语的任务,他们允许有效地找到文件
• 手动的:
人类索引(使用固定词汇表);劳动和培训密集型
• 自动的:
词条操纵(某些词算作同一个词条);术语权重(某些术语比其他术语更重要);索引词只能来自源文本

大词汇量(几千个项目)
(1)杜威十进制系统Dewey Decimal System
(2)国会图书馆主题词Library of Congress Subject Headings
(3)ACM – CS 的子领域
(4)MeSH – 医学主题词

优点:
高精度搜索
适用于封闭式收藏(图书馆中的书籍)
• 问题:
搜索者需要知道术语以实现高精度;贴标机需要接受培训以达到一致性
• 期望网络上的所有内容创建者都这样做是不可行的;集合是动态的

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值