搜索引擎技术资源篇

原创 2007年09月21日 13:34:00

搜索引擎的门槛主要是技术门槛,包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等,这些都是搜索引擎的门槛。

搜索引擎的策略都是采用服务器群集和分布式计算技术。

网页搜索引擎

网页搜索引擎各子系统的设计和实现可能涉及的内容:

  • 网页信息抽取、质量分析
  • 数据挖掘、用户行为分析
  • 分布式大规模网络服务设计
  • 高性能计算,实时海量数据处理
  • 相关性算法
  • 中文处理,新词挖掘

集群开发

  • 数百/数千台服务器在协同工作
  • 管理和调优数据中心的各种设备

这需要你了解服务器硬件架构和相关原理,能够对硬件和操作系统层面进行优化。

  • 测试和提高Linux内核的使用效率

这需要你熟悉linux内核,熟悉TCP/IP协议栈,熟悉路由交换技术。

  • 大规模集群的系统支持
  • 先进数据中心的集成支持
  • 一个跨越全国的分布式系统的网络性能
  • 先进的网络安全技术

机群运维

  • 网页搜索各个子系统的运维操作、服务监控、故障排查,以及紧急情况下的应急处理
  • 服务监控与自动运维系统或工具的设计与开发
  • 研究服务架构,发现潜在问题,对网页搜索系统的研发提出改进需求,提高系统的健壮性和效率
  • 对IDC、硬件、网络等资源进行规划和部署
  • 制定、整理和优化内部制度和流程,制定和改进应急预案,提高服务运行的质量
  • 对相关新技术保持敏锐感觉,调研和试验新的技术方向

基础设施

  • 挑战系统极限--研究与优化 linux 操作系统;
  • 挑战硬件性能极限--研究与定制服务器硬件系统;
  • 挑战大规模、高性能网络极限--研究与优化网络;
  • 挑战大规模网络环境、大服务流量情况下的网络、服务安全--研究与设计安全系统
  • 设计最适应自身的IDC--研究IDC各子系统;
  • 将最新研究成果,在最短的时间,应用到超大规模集群,接受亿万网民的考验!

数据分析

  • 对海量日志信息进行各种统计分析
  • 用户行为分析

Machine Learning

AI on the Web: Machine Learning

  • Machine learning refers to a system capable of the autonomous acquisition and integration of knowledge. This capacity to learn from experience, analytical observation, and other means, results in a system that can continuously self-improve and thereby offer increased efficiency and effectiveness.

http://www.aaai.org/AITopics/html/machine.html

Google核心

  • Google Internals
  • Google File System
  • MapReduce
  • BigTable
  • Google Cluster
  • Chubby Distributed Lock Service
  • Sawzall
  • Google shipping container data center

相关链接

  • http://hr.baidu.com/job.php?ct=1
  • http://www.google.com/intl/zh-CN/jobs/  

搜索引擎的策略都是采用服务器群集和分布式计算技术。(搜索引擎技术资源篇-1)

经典文章:  google早期论文 The Anatomy of a Large-Scale Hypertextual Web Search Engine

搜索原理

主要做三个步骤:从互联网上抓取网页 → 建立索引数据库 → 在索引数据库中搜索排序。

从互联网上抓取网页——利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库——由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序——当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索市场

据业内分析,今后以百度、Google和雅虎为主的水平搜索的增长将趋缓,而垂直搜索(手机移动搜索)、论坛搜索、本地搜索等未来新兴搜索引擎市场将以30%左右的速度增长,到2010年规模将达到78亿元。

也就是说,水平搜索风光不再,而垂直搜索则方兴未艾,垂直搜索是搜索市场新的“蓝海”。据市场研究机构Kelsey Group预测,在未来5年内,仅美国国内地区搜索市场规模将达34亿美元。

搜索历史

  • 搜索引擎的历史

搜索引擎

List of search engines

  • Google - http://www.google.com
  • Yahoo - http://search.yahoo.com
  • http://www.chacha.com/
  • http://www.clusty.com
  • http://www.search.com
  • Autonomy - http://www.autonomy.com.cn
  • WiseNut - http://www.wisenut.com/
  • MSN Search - http://search.msn.com
  • A9 - http://www.a9.com
  • Baidu - http://www.baidu.com
  • Sogou
  • Koders - Source Code Search Engine http://www.koders.com/
  • Ask Jeeves - http://www.ask.com/
  • Teoma - http://www.teoma.com/
  • WiseNut - http://www.wisenut.com/
  • Gigablast - http://www.gigablast.com/
  • Creative Commons Search - http://search.creativecommons.org/
  • Scrub The Web - http://www.scrubtheweb.com/
  • FactBites.com - http://www.factbites.com
  • Dumbfind - http://www.dumbfind.com/
  • Entireweb - http://www.entireweb.com/
  • Objects Search - http://www.objectssearch.com/
  • Pipeline - http://www.pipeline-search.com/
  • Mojeek - http://www.mojeek.com/
  • Ulysseek - http://www.ulysseek.com/
  • SearchHippo - http://www.searchhippo.com/
  • Wotbox - http://www.wotbox.com/
  • meta 搜索引擎 Myriad Search - http://www.myriadsearch.com/
  • Majestic-12: Distributed Search Engine - 一个搜索引擎的协作项目

开源项目

  • Tesseract OCR - http://sourceforge.net/projects/tesseract-ocr

C,C++

  • Apache Lucene4c
  • CLucene is a C++ port of Lucene - http://clucene.sourceforge.net
  • SWISH++ - http://swishplusplus.sourceforge.net/
  • ht://Dig
  • Larbin
  • mnoGoSearch - http://mnogosearch.org/
  • SF超高速FTP搜索引擎
  • ASPSeek - http://www.aspseek.org/
  • OpenFTS - http://openfts.sourceforge.net/
  • Swish-e - http://www.swish-e.org/
  • OpenWebSpider - http://www.openwebspider.org/
  • DataparkSearch - http://www.dataparksearch.org/
  • Managing Gigabytes - http://www.cs.mu.oz.au/mg/
  • Namazu(a Full-Text Search Engine) - http://www.namazu.org/index.html.en (include perl)
  • Zebra - http://indexdata.dk/zebra/
  • Webglimpse - http://webglimpse.net/
  • Xapian - http://www.xapian.org/
  • Webbot

Java

  • Apache Lucene Search Engine (no crawler) - http://lucene.apache.org
  • Apache Nutch (open source web-scalable search engine) - http://lucene.apache.org/nutch/
  • Apache Hadoop - http://lucene.apache.org/hadoop/
  • Compass
  • JXTA Search - http://search.jxta.org/
  • XQEngine(XML Query Engine) - http://xqengine.sourceforge.net/

PHP

  • Sphider

Perl

中文资源

  • 搜索引擎研究 - http://www.wespoke.com/

相关文章

相关链接

  • Search Engine Watch - http://searchenginewatch.com/
  • Search Tools - http://www.searchtools.com/
  • The Web Robots Pages : http://www.robotstxt.org/wc/robots.html ,一些很好的规则定义以及定义了Robots协议
  • Guidelines for Robot Writers : http://www.robotstxt.org/wc/guidelines.html
  • SearchTools.com: http://www.searchtools.com/robots/ ,All About Search Indexing Robots and Spiders 
 
 

相关文章推荐

搜索引擎技术/动态资源

一、搜索引擎技术/动态资源 、综合类 1、卢亮的搜索引擎研究    http://www.wespoke.com/ 卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(ht...
  • saro21
  • saro21
  • 2014年06月10日 09:51
  • 453

实用的搜索引擎资源大搜罗

搜索可能是最有效率的事情,也可能是最没有效率的事情。实际上大多数人都仅仅处在使用搜索引擎的入门阶段,因为没有合理地使用搜索引擎,长久以来所浪费的时间决不在少数。以下提供一些实用的搜索引擎资源,大家可以...

基于python的百度云网盘资源搜索引擎设计架构

大家都知道百度云网盘上有很多分享的资源,包括软件、各类视频自学教程、电子书、甚至各种电影、BT种子应有尽有,但百度云却没有提供相应的搜索功能。个人平时要找一些软件、美剧觉得非常蛋疼。于是就尝试开发一个...

搜索引擎学习资源收集

这篇文章貌似至少六年前人写的,很多信息可能有些过时了,例如博客链接都失效了,大家就取其精华把 [转自]http://wind-bell.iteye.com/blog/81504 搜索引擎学...
  • ylf13
  • ylf13
  • 2013年11月19日 17:37
  • 1939

搜索引擎 (一)全文资源检索框架Lucene

今天来写写搜索,现在做的这个项目中涉及到了很多的搜索大部分是我做的,有次经理问我有没有用过luence这个搜索引擎,这个还真没有用过只是听说过有这么个搜索工具包,一直没有接触过,利用做项目空闲的时间也...

搜索引擎代码资源

一、搜索引擎/网络蜘蛛程序代码 国外开发的相关程序 1、Nutch 官方网站 http://www.nutch.org/ 中文站点 http://www.nutchchina.com/ ...

搜索引擎的相关搜索(基于struts2框架通过关键字与后台的xml资源进行匹配实现)

jsp界面:result.jsp %@page import="java.text.SimpleDateFormat"%> %@page import="org.apache.common...

如何利用CSDN资源来建立技术社区 - 博客篇

博客的辉煌时期已经过去了,很多个人博客都被荒废,越来越多的人倾向使用字数更少的微博,微信来抒发见解。但对专业人士,如IT技术人员,写博客能带来很直接的好处,如锻炼思维,整理想法,更大的作用是有助于建立...
  • Adali
  • Adali
  • 2013年11月27日 13:14
  • 4156

第四章:刷机技术&资源篇

第四章:刷机技术&资源篇

【技术类】【ArcGIS对国产卫星的支持】篇2:资源三号(ZY-3)卫星影像数据介绍

为啥这里要对资源三号(ZY-3)卫星影像做介绍呢?情况是这样嘀,前面说了,中国卫星Raster Type扩展提供了5类Raster Type,分别支持HJ卫星、ZY-02C卫星以及ZY-3卫星,ZY-...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎技术资源篇
举报原因:
原因补充:

(最多只允许输入30个字)