随着Internet的飞速发展,Web中所容纳的信息量越来越大,在存储,信息采集等方面通用搜索引擎正面巨大的挑战。而且,由于通用搜索引擎是面向各种各样的用户,它们的目的是保证在返回结果上做到面面俱到,但是各种各样的结果实际上并不能满足用户对精确度高的搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎便应运而生。 和传统的搜索引擎所不同的是,垂直搜索引擎的网络蜘蛛只是采集Web中的一部分信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行时就会避开大量的与主题无关的信息。由于只采集那些和主题相关的网页,从而使垂直搜索引擎在查询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和运行效率。 本文在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的主题爬行策略,既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。 此外,本文通过研究和分析传统的PageRank算法及其不足,在基于用户点击网页内的各个链接的概率是不均等的情况下,提出一种基于概率的PageRank改进算法,该算法可以用于领域搜索引擎的主题相关度预测,能有效地避免主题漂移现象。 最后,基于Lucene框架和改进的Hertrix开源爬虫框架,设计并构建了一个面向电子产品信息的垂直搜索引擎的原型系统。
lucene
最新推荐文章于 2024-06-12 11:20:28 发布