分析垂直搜索引擎与深度挖掘

目前在搜索引擎正处在高速发展中,通常搜索引擎会对互联网相当部分站点进行检索。但是内容过于庞大,导致了内容不够细分,并没有满足用户深入的需求,如何基于目标站点或站点群,建立一套可行的垂直搜索框架,满足各种特制的规则,并且在内容上做到细致分类,加之构建良好索引,为用户提供良好的信息聚集与查询服务。 当前的互联网搜索引擎通常由4大系统组成:


 下载系统:负责从万维网上下载各种类型的网页,并且保持对万维网的相对同步。
 分析系统:负责抽取下载系统得到的网页数据,并且通过超链接分析,文本去噪,分词,构建文档向量空间.
 索引系统:负责将分析系统处理后的网页对象索引入库。
 查询系统:负责分析用具提交查询请求,通过从索引库中检索出相关网页并将网页排序后,以查询结果的形式返回给用户.


       部署在网络中的网页信息收集器(爬虫)不断的从URL队列总获取所要的网络资源,超文本,PDF,Word,Image。通过分析系统对超链接结构测算,对文本去噪,分词,特征提取,分类,由索引系统将文档集的向量空间特征良好的装入,然后为查询系统提供最后的数据源。


       以上是搜索引擎工作原理的简单概述,随着网络信息容量指数式地增长,大量的文档信息充斥着查询结果集中,虽然搜索引擎会针对文档的重要性,与关键词相关性的判断,但是事实用户只是需要某一特殊方向的需求,这也是垂直搜索引擎为什么越来越被关注,细分用户需求,针对特定需求制定出良好的文档检索处理策略,提供更加人性化服务,必将具有极大的前景。目前市场上的确是如此:从商机搜索到视频搜索,无一不体现了垂直搜索的巨大潜力。 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。 垂直搜索引擎概念的提出,就是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。可以简单的说成是搜索引擎领域的行业化分工。众多专业性网站、行业网站独立服务于互联网的成功,恰恰证明了互联网的格局应该是多方面的。通用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息需求服务。市场需求多元化决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加精确的行业服务模式。可以说通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,势必将出现垂直搜索引擎在互联网中占据部分市场的趋势,也是搜索引擎行业细分化的必然趋势。 那么在对垂直搜索“专、精、深”的要求决定了垂直搜索引擎区别于普通的搜索引擎,垂直搜索系统结构为:


 抓取系统:负责从信息源抓取数据,抓取程序通常是基于预先构造的模板工作的,无模板的蜘蛛程序只能处理结构相对简单的信息,抓取系统涉及的关键技术点有爬行路径分析、增量抓取与全抓取、信息构造完整性、信息唯一性识别、多网页信息整合、自动标引(此功能也可以单独提出)等;

       索引系统,把抓来的信息建立类似书目的数据文件,以便于实现高速检索。索引系统涉及的关键技术点有分词技术、预评分和后评分、增量索引与全索引、排序技术、热点词高速缓存、标准检索语句解析等;

 搜索系统,就是提供搜索功能的网站,网站的具体表现形式大不相同,但是都提供全文搜索功能,除了搜索功能外,还提供与业务相关的其他功能。

       垂直搜索与一般水平搜索不同点:


       垂直搜索引擎spider和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率.


        垂直搜索引擎的索引数据倾向于结构化数据和元数据,结构化信息抽取技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据。有两种方式,简单的就是模板方式,另外就是对网页不依赖web结构化信息抽取方式,这两种方式可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所以web结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。

    个人认为做到良好的深度挖掘并且构建好良好的垂直搜索引擎有以下几点值得关注:

      1. 高效的可扩展的信息检索器
      作为垂直搜索引擎的最基本环节,信息检索器(Crawler),为了满足垂直搜索的后续要求,信息检索器必须能够智能的获取制定网络数据,并且返回详细报告,作为后续分析提供参数,另外检索器必须实现良好的扩展性,提供各种规则过滤接口,以便于满足垂直搜索针对特定域的检索要求。


       2. 模板智能生成匹配,结构化数据抽取
       做为垂直搜索引擎的一个重要环节,利用现有的智能学习方法和算法,进行改进,研究智能模板生成,以及人工训练方法,研究网页半结构化和结构化数据抽取,实现分散的结构化数据还原,聚集。


      3. 基于语义网,超链接的文本分类,定向采集
对于巨大信息量的网页库,即便是指定域的网页,仍然存在大量的不关联和极少关联的网页,利用现有的超链接识别,信息提取判断,结合对网页文本特征提取,获取文本的权重,主体相关性,实现快速定向采集,过滤掉不相的超链和文档,为检索器实现快速定向采集提供支持。

     4 .数据的后期分析提取,提供查询
在大量结构化数据提取后,面对这些原始的数据集,如何通过研究一些智能方法,进行数据重组过滤提取,获取原来不存在,但是却对用户很有意义用途的数据信息,并且如何智能化建立相关索引提供给用户查询.

 

http://hi.baidu.com/vanjor/blog/item/352038f56a39c3e77709d744.html

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值