看了许久的JAVA后,开始开始看老师规定的书了。决定好好了解搜索引擎以及JAVA中的搜索引擎框架lucene。
总的来说,搜索引擎包括这些方面:
网页的抓取,这就主要用spider,可以用广度优先或深度优先进行网页搜集。而搜集可以分为增量搜集和定期搜集,我们著名的GOOGLE就是28天定期搜集一次。
而后,就是对信息进行预处理。包括关键词的提取、重复和转载的消除、链接分析以及网页重要程度的计算。
最后,就是提供查询服务了。包括查询方式及匹配、网页排序和文档摘要。
搜索引擎是个庞大的项目,每一个小的部分都很值得研究。恩,努力面对挑战。