现代信息检索(Modern Information Retrieval)

当年好像看到过这门课程,现在还挺后悔没有选修啊,看内容的确应该很不错。赶紧把书买了,回来好好学习学习,希望不晚,

下面是课程相关网页http://ir.ict.ac.cn/ircourse/

现代信息检索(Modern Information Retrieval)

 

中国科学院研究生院秋季课程(2011. 9-12)    以往课程 >>>>

 

更新日期 2011-12-01

 

一、 课程情况:

    课程编号:71258-Z-2        大纲编号:S081203J28 

    课程属性:专业基础课  学时:40  学分: 2

    授课老师:王斌             单位:中国科学院计算技术研究所信息检索课题组

    授课地点:中国科学院研究生院中关村园区S306教室

    授课时间:2011年9月2日-12月2日 每周五下午 1:30-4:10

        助教:叶宜拓             单位:中国科学院研究生院

        教材:《信息检索导论》中文翻译版 (Standford 等大学教材 “An introduction to Information Retrieval” 的中文翻译版)

 

二、教学目的和要求:

   

本课程为计算机科学与技术、图书情报等相关学科研究生的专业基础课,本课程不是讲授如何利用检索工具进行情报检索,而主要以互联网内容应用为背景讲授和讨论现代信息检索领域的主要思想和关键技术。课程的主要内容包括检索模型、检索评价、相关反馈、查询扩展、信息的组织和索引、文本处理、文本分类与聚类、信息过滤、WEB搜索引擎等等。

       通过本课程的学习,希望学生能了解信息检索的基本思想和概念,了解信息检索相关的最新研究成果,培养学生在信息检索相关领域的研究能力和在互联网内容应用上的知识运用能力。

 

三、课程内容:   

课程内容课时课件
第零  课程相关情况 pdf  ppt
第一讲  布尔检索

信息检索的概念;布尔检索的概念;倒排索引的概念;布尔查询的处理。

1pdf  ppt
第二讲 词项词典及倒排记录表

文档预处理;跳表法合并;带位置信息的倒排索引索及短语查询的处理。

2pdf  ppt
第三讲 词典及容错式检索

支持词典快速查找的数据结构(哈希表、二叉树等);支持通配查询处理的索引结构 ;支持拼写或发音纠错处理的索引结构。

3pdf  ppt
第四讲 索引构建

硬件基础;基于块排序的构建过程;单遍内存式扫描构建方法;分布式(MapReduce)及动态索引方法。

3pdf  ppt
第五讲 索引压缩

词项的统计特性(Heaps定律、Zipf定律);词典的压缩;倒排记录表的压缩。

3pdf  ppt
第六讲 向量模型及权重计算

TF-IDF词项权重计算机制;向量空间模型;

3pdf  ppt
第七讲 一个完整的检索系统

Top K检索;检索系统组成 。

1pdf  ppt
第八讲 检索的评价

效率和效果的评价;查全率和查准率;其他效果评价方法;用户体验及结果摘要;相关评测语料和评测会议。

2pdf  ppt
第九讲 相关反馈和查询扩展

相关反馈和伪相关反馈;查询扩展及重构;全局方法及局部方法。

1pdf  ppt
第十讲 XML检索

XML的基本概念;XML检索中的挑战问题;基于向量空间模型的XML检索方法;XML检索的评价。

1pdf  ppt
第十一讲 概率模型

概率排序原理 ;回归模型;二值独立概率模型(BIM);OKAPI BM25公式。

3pdf  ppt
第十二讲 基于语言建模的检索模型

统计语言建模;基本的查询似然模型;其他扩展的统计语言 建模的检索模型。

3pdf  ppt
第十三讲 文本分类 及朴素贝叶斯

文本分类的概念;朴素贝叶斯方法;文本分类 的评价。

2pdf  ppt
第十四讲 基于向量空间的文本分类方法

分类中的特征选择;Rocchio分类器;kNN;线性分类器。

2pdf  ppt
第十五讲 支持向量机及基于排序的机器学习

支持向量机(SVM);基于排序的机器学习(Learning to Rank)。

1pdf  ppt
第十六讲 扁平聚类

文本聚类的概念及评价方法;K-均值聚类。

3pdf  ppt
第十七讲 层次聚类

层次聚类;单连接、全链接、质心、组平均HAC;簇标签生成。

2pdf  ppt
第十八讲 隐性语义索引

奇异值矩阵分解SVD;隐性语义索引LSI。
1pdf  ppt
第十九讲 Web搜索

互联网广告;近似重复网页查重。
1pdf  ppt
第二十讲 Web采集

Web采集器的功能和结构;一个具体的Web采集器。
1pdf  ppt
第二十一讲 链接分析

PageRank算法;HITS算法。
1pdf  ppt

四、考核方式:

    平时考察+期末考试

          不定期考勤    5%
            若干小练习    15%    >>>>>练习成绩Top10    
            1篇读书报告  15%    >>>>>阅读作业Top10
            1个大作业      30%    >>>>>大作业成绩Top5 
            期末考试        35%    >>>>>期末考试Top10

        阅读作业(待定):SIGIR(2009-2011)、WWW(2009-2011)、CIKM(2009-2011)、SIGKDD(2009-2011)、VLDB(2009-2011)、WSDM(2009-2011)、ACL(2004-2010)论文集中(或其他期刊或论文集中)选择一篇与 课程内容(含搜索、分类、过滤、抽取、问答等等)相关的学术论文(要求是Regular Paper,即长文)进行阅读,并准备10分钟左右的阅读报告每个人的选择结果不能相同(为实现这一点,请尽早选定并公布),考核时间大概在11月中旬。
     

        大作业题目(待定2-3个选课学生组成1队),在以下任务中任选一项(11月底12月初考查): 待定

              

五、教材

 

王斌译,《信息检索导论》(Manning的书翻译版),人民邮电出版社出版,2010年9月(预计)。

C. D Manning, P. Raghavan and H Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008. (国内有人民邮电出版社出的影印版,网上有电子 版)

 

 

六、参考书籍(参看王斌主页):

    1.Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 (国内有机械工业出版社出版的影印版和中文翻译版)

       2.李国辉等著,信息的组织与检索,科学出版社,2003

       3.Witten, Ian et al. Managing Gigabytes.  Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999(国内有中文翻译版)

       4.William Frakes & Ricardo Baeza-Yates,  Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992

   
    5.Karen Sparck Jones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997

       6.李晓明,闫宏飞,王继民著,搜索引擎--原理、技术与系统,北京:科学出版社,2005 电子书下载>>>>

       7.

       8.

 

 

七、参考链接:

       1、Information Retrieval Course at UMASS, Fall 2006, Instructor is James Allan.

       2、Instruction to Text Information Systems at UIUC , Fall 2004, Instructor is Chengxiang Zhai.

       3、Information Retrieval and Web Search at Utexas, Spring 2006, Instructor is Raymond J. Mooney.

       4、Web Search and Mining Course at Stanford, Winnter 2005, Instructor is Christopher Manning and Prabhakar Raghavan.

       5、Intelligent Information Retrieval at Depaul U., Winter 2006, Instructor is Bamshad Mobasher

       6、Information Retrieval and Extraction at Taiwan U., 2005, Instructor is  陳信希教授

 

       有关更多信息检索方面的课程、链接请用Google进行查询:

                   try  information retrieval course

                   try  search engine course

                   try  web mining course

                   try  text mining course


八、教学总结:

 

九、备注:

        IR是一门不断发展的学科,加上本人理解尚浅,上述课程中从内容的选择到讲义的制作都难免会有疏漏和错误,欢迎各位同行来信批评指正。

 


  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
现代信息检索系统是为了满足人们获取和利用大量信息而设计的一种技术设备。它主要用于从各种媒体和数据源中获取相关和有用的信息,以满足用户的信息需求。 现代信息检索系统具有以下几个特点。 首先,现代信息检索系统具有高效性。它能够快速地处理大规模的数据和复杂的查询操作,并在很短的时间内返回相关的结果。无论是处理结构化的数据还是非结构化的文本,现代信息检索系统都能够高效地进行索引和检索操作。 其次,现代信息检索系统具有准确性。它通过采用各种技术和算法来提高信息检索的准确度,以减少信息的误判和错误的评估。例如,通过使用布尔逻辑和权重评分等技术,现代信息检索系统可以更加准确地匹配用户的查询和文档库中的内容。 此外,现代信息检索系统具有多样化的功能和灵活性。它不仅可以进行普通的关键词搜索,还可以进行更加复杂的查询、过滤和排序。它还可以支持多种语言和不同领域的信息检索需求,并根据用户的需求进行个性化的推荐和过滤。 最后,现代信息检索系统还具有可扩展性和可自定义性。它可以根据不同的应用场景和需求进行定制和集成。无论是在企业内部的知识管理系统还是在互联网上的搜索引擎现代信息检索系统都可以根据具体情况进行扩展和优化。 总的来说,现代信息检索系统是为了满足人们对于大量信息获取和利用的需求而设计的一种技术设备。它的高效性、准确性、灵活性以及可扩展性使其成为了现代社会中不可或缺的工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值