未来网页搜索引擎技术的发展方向(转)

摘要:互联网存在的价值就是低成本、高容量、多方的信息传递。互联网每一个杀手级应用都离不开信息和传递这两个关键词。邮箱是、即时通讯是、搜索引擎还是、将来的杀手级应用还依然离不开信息和传递这两个关键词。
     
  搜索引擎的发展历史是一个挖掘用户需求然后满足用户需求的过程。在可以预见的不久的将来,从产品角度看待网页搜索引擎的发展大致有如下几个方面:

  1、确解用户之意 信息抽取,优化排序

  用户在搜索用到“最新”、“免费”、“官方网站”、“北京”、“电话”等关键词的时候并不是一定需要网页中有这个关键词,而是找这类信息。

  用户在找“最新”的时候实际上是希望获取其它词汇的最新相关内容,而不一定是需要含有“最新”这两个词汇的。所以在排序的时候考虑见新的网页排列在靠前位置更满足了用户的需求。

  用户搜索“十八街麻花 北京”是想找在北京的十八街麻花的地址或者电话。

  用户搜索“北京泽通华程科技发展有限公司 电话”的时候是想找电话号码。

  在处理这类请求需要对地理位置信息和“电话”这类词汇进行前端分析,在索引的时候识别电话号码、地址信息,在排序的时候将有相关信息的页面放置在前面、并且在做摘要提取的时候直接体现用户需要。

  2、基于视觉网页块分析

  这项技术激动人心,对于优化网页的排序、自动摘要的质量很有帮助。网页搜索引擎可以全文检索一样在几乎纯净的数据中处理,再加上网页中富有的其它信息,你说网页搜索的相关性能不大幅度提升吗?

  3、网页库内容分类

  用户在搜索“申花”,那他有可能是两个需求,1.足球相关 2.申花电器 3.其它
  如果用户搜索“申花”出来的全部是足球相关信息,这显然不能代表不同网民的需求。作为一个入口而言,如果将不同类型(行业不同、知识类型不同)的信息排列在首页,那用户会感觉很happy,满足了多样性的需求。这也可为将来做个性化搜索提供准备。

  4、潜在相关性

  搜索“恐怖”,出现一篇拉登的新闻,虽然这篇文章里面没有“恐怖”这个关键词。
  搜索“西红柿”出现“番茄”,但是网页中没有“西红柿”这个关键词。
  这个技术好像还不是很成熟。

  5、网页结构化信息抽取类技术,网页上文本内容的相关性分析

  结构化信息抽取实在是未来应用前景最好的一种技术,自动的抽取任意网页上的结构化数据。主要可用  垂直搜索引擎:对网页数据进行采集、抽取、深度加工后为用户提供更好的、更专业的服务。
  结构化信息抽取可以识别网页中文本之间的相关度,可用于改善多词汇检索的关联度(计算偏移量不仅仅在文本距离上而且在表格单元格的相关性上);改善链接的相关性;改善文件和文本的相关性……
  地图搜索、黄页搜索、mp3搜索、图片搜索、bbs搜索等等各种搜索都离不开网页结构化信息抽取。

  6、自然语言处理、简单的语意语法分析

  NLP还有很远的路要走,在走路的过程中也可以获得很多可应用的价值。说不定NLP不很成功,但是有可能催生了某种新技术的非常成功。而NLP不需要完全成功前就可以使用他了。
  搜索引擎可以根据内容来进行简易的语法分析,将某些呈现在用户面前。比如google的“DEFINE:“就用到了这种方法、同义词的识别等都可以用到这种简单的语法分析来搞定!还可以对具有某类语法的形式的正文进行关键词调权,改善检索效果。

  7、重复识别

  互联网的数据冗余实在太厉害了,一篇文章可能会被转载数千数万次。
  识别重复的网站、网页、重复的正文、重复的段落识别…………
  让用户感觉到“哇噻!这里的内容不重复!”
  同时对重复的信息进行调权,装载量大的信息一般比较受欢迎,应该具有更高的权值。但是要对新闻类的内容进行识别,一定时间内加权、一定时间后降权。

  8、行业优化

  搜索引擎的行业化是不可避免的。唯一影响搜索引擎行业化的门槛就是技术还是存在难度(这里说的技术不是那种小儿科的基于模板的元数据采集分词索引)。
  但是网页搜索引擎可以最大程度的行业化,在这点百度显得卓有远见。建立百度知道不仅仅可以丰富内容、语料库、拴住用户、甚至盈利。更大的用处可以用百度知道的各个行业的专业搜索用户群来改善百度搜索对各个行业的效果的用户分析,确解各行业用户之意百度可以很低成本的通达,调动专业人员来优化效果百度可以做到。

  9、相关搜索

  前几天一个朋友对我说“相关搜索”的主要作用是两个,1.提示给网友其它网友搜索的词汇(帮助不太会选择关键词的用户选择关键词、提供用户之间的一种交互)2.推荐提供效果更好的更相关的相关搜索词汇
第一个功能基本上满足了。第二个搜索引擎基本上还很不到位。如何完成第二个功能,很难。但是要做到一定程度,很容易。

  10、采集更多的数据

  互联网上的数据只是整个世界的数据的很少的一部分,搜索引擎已经不满足于各个蚂蚁搬砖头的网站的速度了。通过某种低成本高效的数据采集方式采集线下的数据、人脑中的数据是搜索引擎公司追逐的。
spider制造+用户制造+自己制造+合作制造

  11、跟踪互联网变化,细节上的优化,博弈
  搜索引擎是和互联网各网站、网民密切相关的一个应用,其数据的全面性和数据源、采集系统密切相关。
  针对网页的结构变化、内容变化,网民的需求变化,需要不断的改善。对各种各类细节的改善都是搜索引擎的难点,也是必须走的道路,搜索引擎的发展就是关注细节,一个一个问题解决。
  还有,和搜索引擎优化全民化的的博弈。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值