为了实现将上海理工大学的新闻可以进行关键词、关键字的检索,设计了基于Python的检索系统。
系统主要分为四部分,爬虫、中文分词、建立倒排索引、检索接口。
1、爬虫
将上海理工大学的新闻中心(http://www.usst.edu.cn/s/1/t/517/p/2/i/411/list.htm)的标题或全文爬取下来,存入TXT文件。简单的应用正则表达式(re模块)和字符串的处理即可实现。
2、中文分词
应用Jieba分词工具,将爬取得到的新闻进行中文分词,也就是为了得到以后检索要用到的关键词。我们给每个关键词建立一个单独的索引,引入间接桶,应用倒排索引的方法实现最终的结果。
3、建立倒排索引
建立倒排索引的过程其实主要是做好数据结构的过程。如何存放每个关键词,间接桶使用哪种数据类型,最终的索引如何实现,都是建立好这个索引结构的关键。
4、检索接口
即用户界面设计,简单使用Tkinter库,设计一个检索接口,完成关键词,关键字的检索。