搜索引擎技术资源篇-2(转载)

最新推荐文章于 2024-06-21 07:24:57 发布

shark863

最新推荐文章于 2024-06-21 07:24:57 发布

阅读量694

点赞数

分类专栏： c/c++ 文章标签：搜索引擎 search lucene 数据库 apache google

c/c++ 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

搜索引擎的策略都是采用服务器群集和分布式计算技术。(搜索引擎技术资源篇-1)

经典文章: google早期论文 The Anatomy of a Large-Scale Hypertextual Web Search Engine

<script type="text/javascript"> if (window.showTocToggle) { var tocShowText = "显示"; var tocHideText = "隐藏"; showTocToggle(); } </script>

搜索原理

主要做三个步骤：从互联网上抓取网页 → 建立索引数据库 → 在索引数据库中搜索排序。

从互联网上抓取网页——利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。建立索引数据库——由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序——当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索市场

据业内分析，今后以百度、Google和雅虎为主的水平搜索的增长将趋缓，而垂直搜索(手机移动搜索)、论坛搜索、本地搜索等未来新兴搜索引擎市场将以30%左右的速度增长，到2010年规模将达到78亿元。

也就是说，水平搜索风光不再，而垂直搜索则方兴未艾，垂直搜索是搜索市场新的“蓝海”。据市场研究机构Kelsey Group预测，在未来5年内，仅美国国内地区搜索市场规模将达34亿美元。

搜索历史

搜索引擎的历史

搜索引擎

List of search engines

Google - http://www.google.com
Yahoo - http://search.yahoo.com
http://www.chacha.com/
http://www.clusty.com
http://www.search.com
Autonomy - http://www.autonomy.com.cn
WiseNut - http://www.wisenut.com/
MSN Search - http://search.msn.com
A9 - http://www.a9.com
Baidu - http://www.baidu.com
Sogou
Koders - Source Code Search Engine http://www.koders.com/
Ask Jeeves - http://www.ask.com/
Teoma - http://www.teoma.com/
WiseNut - http://www.wisenut.com/
Gigablast - http://www.gigablast.com/
Creative Commons Search - http://search.creativecommons.org/
Scrub The Web - http://www.scrubtheweb.com/
FactBites.com - http://www.factbites.com
Dumbfind - http://www.dumbfind.com/
Entireweb - http://www.entireweb.com/
Objects Search - http://www.objectssearch.com/
Pipeline - http://www.pipeline-search.com/
Mojeek - http://www.mojeek.com/
Ulysseek - http://www.ulysseek.com/
SearchHippo - http://www.searchhippo.com/
Wotbox - http://www.wotbox.com/
meta 搜索引擎 Myriad Search - http://www.myriadsearch.com/
Majestic-12: Distributed Search Engine - 一个搜索引擎的协作项目

开源项目

Tesseract OCR - http://sourceforge.net/projects/tesseract-ocr

C,C++

Apache Lucene4c
CLucene is a C++ port of Lucene - http://clucene.sourceforge.net
SWISH++ - http://swishplusplus.sourceforge.net/
ht://Dig
Larbin
mnoGoSearch - http://mnogosearch.org/
SF超高速FTP搜索引擎
ASPSeek - http://www.aspseek.org/
OpenFTS - http://openfts.sourceforge.net/
Swish-e - http://www.swish-e.org/
OpenWebSpider - http://www.openwebspider.org/
DataparkSearch - http://www.dataparksearch.org/
Managing Gigabytes - http://www.cs.mu.oz.au/mg/
Namazu(a Full-Text Search Engine) - http://www.namazu.org/index.html.en (include perl)
Zebra - http://indexdata.dk/zebra/
Webglimpse - http://webglimpse.net/
Xapian - http://www.xapian.org/
Webbot

Java

Apache Lucene Search Engine (no crawler) - http://lucene.apache.org
Apache Nutch (open source web-scalable search engine) - http://lucene.apache.org/nutch/
Apache Hadoop - http://lucene.apache.org/hadoop/
Compass
JXTA Search - http://search.jxta.org/
XQEngine(XML Query Engine) - http://xqengine.sourceforge.net/

PHP

Sphider

Perl

中文资源

搜索引擎研究 - http://www.wespoke.com/

相关文章

相关链接

Search Engine Watch - http://searchenginewatch.com/
Search Tools - http://www.searchtools.com/
The Web Robots Pages : http://www.robotstxt.org/wc/robots.html ,一些很好的规则定义以及定义了Robots协议
Guidelines for Robot Writers : http://www.robotstxt.org/wc/guidelines.html
SearchTools.com: http://www.searchtools.com/robots/ ,All About Search Indexing Robots and Spiders

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。