垂直搜索引擎的关键技术

 

     对于搜索引擎有几个关键的技术词语,如:网页抓取,网页解析,索引存储,查询接口,结果排序等等。但是对垂直搜索来说,又有些不同,何为垂直搜索,我的理解是只需要针对某个领域内的几个特定的网站,进行信息抓取。这样一来减少了很多工作。

       举个例子,我需要做一个提供工作信息的网站,而这个网站是集成了好几个网站的资料的,比如51job,智联招聘等。那么对于网页抓取的话,我的网站数据是固定数目,只需要对这几个指定的网站进行抓取就可以了。辟如每天晚上对这些网站进行抓取一次最新时间的招聘信息。

       解析部分嘛,由于在垂直搜索中,我们需要的信息是固定的,比如招聘信息的属性是固定的,像公司名称,职位名称,简介,职位要求等。这些我们都可以认为是固定的。而我们要做的就是从固定的网页上解析出这些固定的属性就可以,这里可以用利用正则表达式来做,对于不同的网页,它的网页结构也是不同的,所以不同的网站需要有不同的解析方法。另外当某个网站的结构发生变化时,我们的正则表达式解析也需要做相应的改变。这是一个很麻烦的事情。

       另外当抓取和解析的网站很多时,往往都是需要分布式的多台计算机来进行处理,这样就需要对这些任务进行分成多个组,如通过对不同的网站放在不同的计算机上,以达到一种并行计算的功能。

       解析完后,就是存储这些信息,一个最简单的方式是把它保存到集中式数据库中的固定表结构中,然后再利用SQL语言来完成查询结果。这是一个比较简单的做法。但是如果当数据量比较大时,这时有可能就需要一种分布式文件系统来保存索引信息。像GOOGLEbaidu,就是这样做。而对于数据量不大的垂直搜索,可以采用前面的方法。

       讲了一些基本的过程与原理,但是这里同样有难点,就是当网站的结构有变化时,我们就需要改变我们的解析程序,这是一个很头疼的问题,另外还有一些语义问题,可能同一个招聘信息在多个地方出现,如何判断是同一个信息,而不需要重复出现在用户面前。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值