搜索引擎的发展简史

搜索引擎的发展简史
——【郭亚辉】【QQ348131601】

在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
现代意义上的搜索引擎的祖先,是1990年由Montreal(加拿大的蒙特利尔)的McGill University学生 Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受欢迎,受其启发,美国的内华达州System Computing Services大学于1993年开发了一个Gopher搜索工具Veronica。Jughead是后来另一个Gopher搜索工具。
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!
随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi(已被Yahoo收购),它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度(百度已于2001年9月开始提供公共搜索服务)也属于这一类,搜狐和新浪用的就是它的技术(搜狐二级网页搜索现已改为中搜的引擎,而新浪则已转用Google的搜索结果。)。因此从这个意义上说,它们是搜索引擎的搜索引擎。
Excite 的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile 。目前Excite隶属于Ask Jeeves公司。)
1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy (Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。

搜索引擎发展简史之英文搜索引擎
Yahoo搜索 www.yahoo.com
1994年4月,Stanford University的两名博士生,美籍华人 Jerry Yang (杨致远)和David Filo共同创办了Yahoo (Jerry Yang Alerts a Usenet group to the Yahoo Database ,1996年的Yahoo )。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture。)
1994年初,Washington大学CS学生 Brian Pinkerton 开始了他的小项目 WebCrawler (Brian Pinkerton Announces the Availability of Webcrawler )。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile) 。
Google搜索 www.google.com
1998年10月之前, Google 只是Stanford(斯坦福)大学的一个小项目 BackRub 。1995年博士生 Larry Page 开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在 Sergey Brin 和 Scott Hassan、Alan Steremberg 的共同参与下,BachRub开始提供 Demo 。1999年2月,Google完成了从 Alpha 版到 Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。
Google在 Pagerank 、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。Google自2000年开始提供中文搜索服务。
(注:2004年8月份Google上市,到2004年底,Google股价达到了185美元,赢利额增加222倍。2005年2月3日,在Google公布了高于预期的第四季度财报后,以股票市场价值为标准,它已取代eBay成为了市值第一的网络公司。目前Google的市值高达560亿美元,已接近美国媒体巨头迪斯尼的市值,甚至超过了通用汽车及美国铝公司(Alcoa)市值的总和。2月2日Google在纳斯达克的股价一度升高到每股216.80美元,再次刷新了它的股价记录,随后以205.96美元收盘,当天整体上涨了7.3%。)
MSN搜索 search.msn.com
微软公司一直以来通过雅虎公司旗下Inktomi支持其搜索服务,但早在2003年,看到Google引领搜索广告并从中获得大量利润之时,位于华盛顿雷蒙德的微软公司就有了创建自己搜索引擎的决定。凭借微软雄厚的软件技术实力,2004年11月微软推出MSN搜索测试版,经过三个月的初步测试,2005年2月1日微软终于推出了MSN搜索正式版。目前MSN搜索提供Web、News、Images、Music、Desktop.BETA、Encarta等的搜索,比较有特色的是可以直接进入Encarta(微软的百科全书)进行答案搜索。虽然微软如此之晚才进入搜索领域,但凭借它的技术、市场、资金等优势,势必将对现今的搜索格局产生重大影响。
搜索引擎发展简史之中文搜索引擎
百度搜索引擎 www.baidu.com
2000年1月,两位北大校友超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。
中国搜索 www.zhongsou.com
中国搜索(原慧聪搜索)2002年正式进入中文搜索引擎市场,2003年8月24日 慧聪搜索(现中国搜索)正式推出第三代智能中文搜索引擎.2003年12月23日 慧聪搜索正式独立运作,成立中国搜索,陈沛出任CEO,同时推出中国搜索新闻中心。2004年2月26日 中国互联网新闻中心、IDG集团注资中国搜索,成立合资公司。并提出”个人门户时代”的创新理念。2004年2月26日 中搜桌面搜索引擎网络猪1.0版公开发布。实现主要功能:桌面搜索、个性化定制新闻专题、行业资讯、对接即时通(IMU)、自写短信功能、智能搜索(按照用户天气预报设置的城市,在目标城市范围内进行搜索),目前最新版本是3.0beta。中搜目前提供网页、新闻、行业、网站、Mp3、图片、购物、地图等搜索,其中行业搜索较有特色。
搜狗搜索 www.sogou.com
搜狗是搜狐公司于2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站-“搜狗”(www.sogou.com)。以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”.
SOSO搜索 www.soso.com
在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索冲浪时,给与用户未曾意识到的主题提示。

——转自网络

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
内容提要编辑 在网络普及的今天,人们经常在信息海洋中彷徨,在万维网迷宫般的复杂与魅力之间挣扎。直到搜索引擎这一伟大的技术产生,才使得人们犹如找到了走出迷宫的灯塔,可以非常便捷地找到自己所需要的信息。 正是因为搜索引擎离我们越来越近,所以越来越多的人期待着能够揭开她神秘的面纱。其实搜索引擎并不是变幻莫测的大海,也不是高不可攀的山峰。请拿起本书,它就是引领你的火炬,它就是你身边的伙伴,它将带着你走进搜索引擎。在那里,你必将会被搜索引擎精致的设计和宏伟的架构所征服。 本书由搜索引擎开发研究领域年轻而有活力的科学家精心编写,作者将自己对搜索引擎的深刻理解和实际应用巧妙地结合,使得从未接触过搜索引擎原理的读者也能够轻松地在搜索引擎的大厦中遨游一番。 编辑推荐编辑 《走进搜索引擎》是一本搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等,是从事搜索引擎开发的工程技术人员难得的参考书,也可作为大中专院校相关专业的教学辅导书。 图书作者编辑 梁斌毕业于南京大学,获得软件工程硕士学位,曾经发表过多篇论文,获得1项国家专利,作者主要的兴趣方向包括数据挖掘、Wed挖掘、搜索引擎和软件工程等,目前在清华大学信息科学与技术国家实验室从事搜索引擎相关研究工作。 图书目录编辑 第一章引言 第一节什么是搜索引擎 第二节搜索引擎发展简史 搜索引擎发展历史 第三节搜索引擎大事快览 第四节国内著名搜索引擎 百度 中搜 天网 搜狗 参考文献 第二章搜索引擎概貌 第一节搜索引擎的主要需求 查得快 查得全 查得准 查得稳 第二节搜索引擎的大系统 搜索引擎的体系结构 第三章搜索引擎的下载系统 第一节爬虫的发展历史 世界上第一个爬虫 爬虫的发展历程 第二节万维网及其网页分析 蝴蝶结型的万维网 万维网的直径 万维网的规模及变化特征 网页的特征 第三节有关爬虫的基本概念 爬虫 种子站点 URL Backlinks
目录 关于这本书.............................................................................................................................................1 第一章 搜索引擎基础............................................................................................................................2 第一节 什么是搜索引擎....................................................................................................................2 一、搜索引擎的作用......................................................................................................................2 二、搜索引擎的定义......................................................................................................................4 第二节 搜索引擎的基本工作原理.....................................................................................................4 一、抓取.........................................................................................................................................5 二、索引.........................................................................................................................................5 三、排序.........................................................................................................................................5 第三节 搜索引擎的分类....................................................................................................................6 一、网页级搜索..............................................................................................................................6 二、垂直搜索.................................................................................................................................6 三、元搜索引擎..............................................................................................................................6 四、目录搜索.................................................................................................................................6 五、集成搜索.................................................................................................................................7 第四节 搜索引擎的未来....................................................................................................................7 一、快速化.....................................................................................................................................7 二、多样化.....................................................................................................................................7 三、智能化.....................................................................................................................................7 四、社会化.....................................................................................................................................7 五、个性化.....................................................................................................................................8 第五节 主要搜索引擎介绍................................................................................................................8 一、Google.....................................................................................................................................8 二、Yahoo....................................................................................................................................12 三、百度.......................................................................................................................................13 四、搜狗.......................................................................................................................................15 五、中文搜索引擎列表................................................................................................................16 第二章 搜索引擎营销基础..................................................................................................................17 第一节 什么是搜索引擎营销..........................................................................................................17 一、搜索引擎营销的定义............................................................................................................17 二、搜索引擎营销的价值............................................................................................................17 三、搜索引擎营销原理................................................................................................................18 第二节 搜索引擎营销的特点..........................................................................................................19 一、广泛使用...............................................................................................................................19 二、用户主动查询,针对性强....................................................................................................19 三、获取新客户............................................................................................................................19 四、竞争性强...............................................................................................................................20 第 1 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 五、动态更新,随时调整............................................................................................................20 六、门槛低,投资回报率高........................................................................................................20 第三节 搜索引擎营销的目标..........................................................................................................21 一、被收录...................................................................................................................................21 二、排名靠前...............................................................................................................................21 三、被点击...................................................................................................................................21 四、客户转化...............................................................................................................................21 五、提高品牌知名度....................................................................................................................21 第四节 搜索引擎营销的形式..........................................................................................................22 一、搜索引擎登录........................................................................................................................22 二、固定排名和广告....................................................................................................................23 三、按效果付费排名....................................................................................................................24 四、自然排名...............................................................................................................................24 第三章 搜索引擎优化基础..................................................................................................................25 第一节 为什么要搜索引擎优化.......................................................................................................25 一、搜索引擎优化的定义............................................................................................................25 二、搜索引擎优化的价值............................................................................................................25 三、SEO和SEM的关系...............................................................................................................26 四、SEO和付费排名的关系........................................................................................................26 第二节 搜索引擎SEO的态度.......................................................................................................27 一、Google...................................................................................................................................27 二、Yahoo....................................................................................................................................29 三、百度.......................................................................................................................................30 四、搜狗.......................................................................................................................................34 第三节 白帽SEO和黑帽SEO...........................................................................................................37 第四节 搜索引擎优化的发展..........................................................................................................39 一、SEO发展历史....................................................................................................................39 二、SEO在中国............................................................................................................................40 三、SEO发展方向....................................................................................................................42 第五节 关于搜索引擎优化的一些观点...........................................................................................43 一、搜索引擎优化合法吗?........................................................................................................43 二、会不会和搜索引擎对着干?................................................................................................43 三、搜索引擎是否会人工干预?................................................................................................44 四、我的网站有大量的优质原创内容,所以我不需要SEO了。............................................44 五、SEO没有技术含量或SEO需要很高深的技术....................................................................44 六、大网站那样做了,我也向他们学习....................................................................................44 七、SEO企业或SEO工具的保证排名宣传................................................................................44 八、稳定的排名............................................................................................................................45 九、SEO的目标就是获得排名第一的位置或尽可能多的访问量............................................45 十、竞争对手无法破坏我的排名................................................................................................45 第四章 SEO相关的搜索引擎技术......................................................................................................46 第 2 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 第一节 搜索引擎机器人..................................................................................................................46 一、什么是搜索引擎机器人?....................................................................................................46 二、如何辨别搜索引擎机器人身份............................................................................................47 第二节 超链分析..............................................................................................................................47 一、基本原理...............................................................................................................................48 二、工作步骤...............................................................................................................................48 三、搜索效果...............................................................................................................................49 四、超链分析技术的应用............................................................................................................49 五、存在的缺陷............................................................................................................................50 第三节 中文分词..............................................................................................................................50 一、什么是中文分词?..................................................................................................................50 二、中文分词的意义和作用........................................................................................................50 三、中文分词技术........................................................................................................................51 四、分词中的难题........................................................................................................................53 五、中文分词的应用....................................................................................................................53 六、中文搜索引擎技术................................................................................................................54 第四节 基于词意的文本分析..........................................................................................................55 一、文本分析技术特点................................................................................................................55 二、文本分析应用........................................................................................................................55 第五章 了解网站的搜索引擎表现......................................................................................................57 第一节 基础查询..............................................................................................................................57 一、域名信息查询........................................................................................................................57 二、域名历史查询........................................................................................................................57 三、主机连接速度和IP地址查询................................................................................................57 四、同IP网站查询........................................................................................................................57 第二节 收录查询..............................................................................................................................58 一、是否被收录............................................................................................................................58 二、网页收录数量........................................................................................................................58 第三节 反向链接查询......................................................................................................................59 第四节 网页RANK查询.....................................................................................................................59 一、Google PageRank查询........................................................................................................59 二、Sogou Rank查询..................................................................................................................59 第五节 关键词排名查询..................................................................................................................59 第六节 ALEXA查询.........................................................................................................................60 一、什么是Alexa?......................................................................................................................60 二、Alexa主要数据......................................................................................................................60 三、用Alexa查什么?..................................................................................................................60 第六章 基于搜索引擎友好的网站设计..............................................................................................62 第一节 域名策略..............................................................................................................................62 一、不同后缀的域名在搜索引擎中的权重................................................................................62 二、域名基本常识........................................................................................................................62 第 3 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 三、域名的关键词策略................................................................................................................69 四、中文站点的域名的拼音策略................................................................................................70 五、谨防注册一个遭受搜索引擎惩罚过的域名........................................................................70 第二节 空间策略..............................................................................................................................71 一、安全元素一:稳定性............................................................................................................71 二、安全元素二:良好的共处环境............................................................................................71 三、本节附录...............................................................................................................................72 第三节 网站结构规划......................................................................................................................72 第四节 站点导航设计......................................................................................................................73 第五节 IFRAME、JAVASCRIPT和AJAX..........................................................................................73 一、IFRAME..............................................................................................................................74 二、JS..........................................................................................................................................74 三、AJAX....................................................................................................................................74 第六节 URL设计..............................................................................................................................75 一、便于用户记忆........................................................................................................................75 二、URL静态化...........................................................................................................................75 三、URL的关键词部署...............................................................................................................78 第七节 网页代码的编写..................................................................................................................80 一、遵循WEB标准......................................................................................................................80 二、代码的逻辑性........................................................................................................................80 第八节 面向搜索引擎的文案写作指导...........................................................................................81 一、网页标题Title........................................................................................................................81 二、Meta元标签...........................................................................................................................84 三、图片ALT替换文本................................................................................................................85 四、Robots.txt............................................................................................................................85 五、链接锚文本............................................................................................................................89 六、Sitemap.xml.........................................................................................................................89 七、版权与隐私............................................................................................................................97 第九节 用户友好性检测..................................................................................................................97 一、链接的可用性........................................................................................................................97 二、访问速度体验........................................................................................................................97 三、查找信息的便捷度................................................................................................................98 第七章 创建搜索引擎喜欢的内容......................................................................................................99 第一节 搜索引擎喜欢什么内容.......................................................................................................99 一、Google对网站内容的说明:................................................................................................99 二、百度对网站内容的说明:....................................................................................................99 第二节 内容的四大来源..................................................................................................................99 一、自己撰写原创文章................................................................................................................99 二、使用他人的内容..................................................................................................................100 第三节 常见问题............................................................................................................................102 一、网站内容的更新..................................................................................................................102 二、内容匮乏怎么办..................................................................................................................103 第 4 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 三、采集系统..............................................................................................................................104 四、商城程序的内容问题..........................................................................................................105 第八章 提交你的网站........................................................................................................................106 第一节 向搜索引擎提交网站........................................................................................................106 一、常用搜索引擎登录入口......................................................................................................106 二、提交注意事项......................................................................................................................106 三、登录搜索引擎的最佳办法..................................................................................................106 第二节 登录分类目录站................................................................................................................107 第三节 登录网址导航站................................................................................................................108 第四节 登录垂直行业门户............................................................................................................109 第九章 链接策略(一)....................................................................................................................111 第一节 链接的基本知识................................................................................................................111 第二节 为什么链接很重要............................................................................................................111 一、超链分析技术......................................................................................................................111 二、网页级别..............................................................................................................................111 三、网站的更新频率..................................................................................................................112 四、内容的相关性......................................................................................................................113 第三节 网站内部页面的链接策略.................................................................................................113 一、给重要的网页更多的关注..................................................................................................113 二、相关链接(人工和自动)和频道关联..............................................................................114 三、链接的导出..........................................................................................................................114 第十章 链接策略(二)....................................................................................................................115 第一节 登录开放目录DMOZ.........................................................................................................115 一、为什么登录DMOZ如此重要.............................................................................................115 二、DMOZ开放目录登录实战攻略.........................................................................................115 三、一些对你有帮助的建议......................................................................................................116 第二节 交换链接............................................................................................................................116 第三节 购买链接............................................................................................................................117 第四节 链接诱饵............................................................................................................................118 一、如何制造链接诱饵..............................................................................................................118 二、对链接诱饵应如何看待......................................................................................................118 第五节 外链建设中的几个误区.....................................................................................................119 一、外部链接数目增长的自然化..............................................................................................119 二、不要忘记你最能做好的事情..............................................................................................119 三、不宜使用软件群发..............................................................................................................120 第十一章 数据监测和分析................................................................................................................121 第一节 网站流量数据统计与分析.................................................................................................121 一、什么叫网站流量及网站流量统计分析..............................................................................121 二、网站流量指标......................................................................................................................121 第 5 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 三、用户行为指标......................................................................................................................123 四、用户浏览网站的方式..........................................................................................................126 第二节 中文常见流量统计系统介绍.............................................................................................126 一、51.la统计服务.....................................................................................................................126 二、网站管理员统计..................................................................................................................126 三、ItSun统计............................................................................................................................126 四、51Yes网站流量统计............................................................................................................126 五、武林榜、太极链..................................................................................................................126 六、一统天下统计服务..............................................................................................................127 七、趋势流量分析系统..............................................................................................................127 八、Google Analytics................................................................................................................127 九、Measure Map.....................................................................................................................127 十、Statcounter.com.................................................................................................................127 第三节 流量统计分析实例............................................................................................................128 一、典型性数据采集抓取..........................................................................................................128 二、IP与PV...............................................................................................................................128 三、网页访问入口分析..............................................................................................................130 四、搜索引擎流量导入..............................................................................................................131 五、搜索引擎关键词分析..........................................................................................................132 第四节 行业热点跟踪....................................................................................................................133 一、Yahoo风向标:...................................................................................................................133 二、百度风云榜:......................................................................................................................133 三、百度指数..............................................................................................................................134 第十二章 高端技巧............................................................................................................................137 第一节 搜索行为分析....................................................................................................................137 一、什么是搜索行为分析..........................................................................................................137 二、为什么要进行用户搜索行为分析......................................................................................137 三、用户搜索行为的几个特点..................................................................................................137 四、搜索行为分析的重点对象..................................................................................................138 五、搜索行为变化情况..............................................................................................................138 六、用户的关键词搜索行为......................................................................................................140 第二节 关键词分析........................................................................................................................143 一、什么是关键词......................................................................................................................143 二、如何挑选正确的关键词......................................................................................................143 三、竞价关键词的选择..............................................................................................................147 四、关键词竞争程度分析..........................................................................................................148 五、关键词查询工具..................................................................................................................153 第三节 关键词密度........................................................................................................................153 一、什么是关键词密度..............................................................................................................153 二、正确理解关键词密度..........................................................................................................153 三、适当的关键词密度..............................................................................................................153 四、关键词位置和形式..............................................................................................................154 第 6 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 五、Google 和Yahoo的区别.....................................................................................................156 六、关键词密度的基本原则......................................................................................................156 七、如何增加关键词密度..........................................................................................................157 八、关键词密度工具..................................................................................................................158 第四节 信息干扰现象....................................................................................................................158 一、信噪比与干扰信息..............................................................................................................158 二、信息干扰的副作用..............................................................................................................158 三、如何减小信息干扰..............................................................................................................158 第五节 重定向...............................................................................................................................159 一、什么是重定向......................................................................................................................159 二、301重定向...........................................................................................................................159 三、302重定向...........................................................................................................................161 四、404重定向...........................................................................................................................162 五、其他重定向..........................................................................................................................164 第六节 垂直搜索引擎优化概览(图片搜索、移动搜索等).....................................................165 一、图片搜索..............................................................................................................................165 二、Flash...................................................................................................................................167 三、视频搜索..............................................................................................................................167 四、避免搜索中的搜索..............................................................................................................168 第十三章 几个重要的问题................................................................................................................169 第一节 搜索引擎排名作弊............................................................................................................169 一、什么是搜索引擎作弊?......................................................................................................169 二、搜索引擎排名作弊的常见形式..........................................................................................169 三、常见的作弊载体..................................................................................................................171 第二节 搜索引擎的反作弊............................................................................................................172 一、为什么搜索引擎要反作弊..................................................................................................172 二、搜索引擎对待SEO与作弊的态度......................................................................................172 三、主要搜索引擎反作弊的一些规定......................................................................................173 四、搜索引擎惩罚站点事件举例..............................................................................................175 第三节 搜索引擎惩罚和解除........................................................................................................176 一、搜索引擎惩罚的方式..........................................................................................................176 二、站点被惩罚后的影响..........................................................................................................176 三、如何投诉作弊......................................................................................................................177 四、你的站点是否被惩罚?......................................................................................................177 五、搜索引擎作弊惩罚解除流程..............................................................................................178 第四节 搜索引擎反作弊任重道远.................................................................................................178 一、搜索垃圾永不会消失..........................................................................................................178 二、搜索引擎反作弊的历程......................................................................................................179 三、石头记录的2005年SEO作弊状况....................................................................................180 四、曾经的作弊有多疯狂..........................................................................................................182 五、SEO的职业道德..................................................................................................................186 六、搜索引擎反作弊的人性化..................................................................................................189 第 7 页 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net 七、搜索引擎反作弊的法律支持..............................................................................................190 第十四章 附录...................................................................................................................................191 第一节 搜索引擎发展史................................................................................................................191 一、搜索引擎编年史:全球......................................................................................................191 二、搜索引擎编年史:中国......................................................................................................197 第二节 搜索引擎行业八卦............................................................................................................200 一、中国SEO市场概况..............................................................................................................200 二、杨致远为Yahoo做优化.......................................................................................................201 三、SEO大赛..............................................................................................................................201 第三节 SEO工具介绍.....................................................................................................................202 一、SEO工具软件种类..............................................................................................................202 二、Google Sitemaps................................................................................................................206 三、通过sitemaps分析死链.......................................................................................................206 第四节 GOOGLE的几个著名现象...................................................................................................207 一、Google Trust Rank...........................................................................................................207 二、Google Sandbox.................................................................................................................208 三、Google Dance.....................................................................................................................210 四、Sitelinks..............................................................................................................................211 五、补充材料..............................................................................................................................213 第 8
目录 前言 第一章引论.................................................................................................................1 第一节 搜索引擎的概念................................................................................................2 第二节 搜索引擎发展历史........................................................................................3 第三节 一些著名的搜索引擎........................................................................................7 上篇 WEB搜索引擎基本原理和技术....................................................................16 第二章 WEB搜索引擎工作原理和体系结构..........................................................17 第一节 基本要求..........................................................................................................17 第二节 网页搜集..........................................................................................................18 第三节 预处理..............................................................................................................20 第四节 查询服务..........................................................................................................22 第五节 体系结构..........................................................................................................25 第三章 WEB信息的搜集..........................................................................................29 第一节 引言..................................................................................................................29 一、 超文本传输协议..............................................................................................29 二、 一个小型搜索引擎系统..................................................................................31 第二节 网页搜集..........................................................................................................33 一、 定义URL类和Page类......................................................................................34 二、 与服务器建立连接..........................................................................................39 三、 发送请求和接收数据......................................................................................41 四、 网页信息存储的天网格式..............................................................................42 第三节 多道搜集程序并行工作..................................................................................45 一、 多线程并发工作..............................................................................................46 二、 控制对一个站点并发搜集线程的数目..........................................................47 第四节 如何避免网页的重复搜集..............................................................................47 一、 记录未访问、已访问URL和网页内容摘要信息..........................................47 二、 域名与IP的对应问题......................................................................................48 第五节 如何首先搜集重要的网页..............................................................................49 第六节 搜集信息的类型..............................................................................................52 第七节本章小结..........................................................................................................54 iii 第四章对搜集信息的预处理...................................................................................55 第一节 信息预处理的系统结构..................................................................................55 第二节 索引网页库......................................................................................................56 第三节 中文自动分词..................................................................................................58 第四节分析网页和建立倒排文件..............................................................................64 第五节本章小结..........................................................................................................66 第五章信息查询服务...............................................................................................67 第一节 查询服务的系统结构......................................................................................67 第二节 检索的定义......................................................................................................68 第三节 查询服务的实现..............................................................................................69 一、 结果集合的形成..............................................................................................69 二、 查询结果显示.................................................................................................70 第四节 本章小结..........................................................................................................72 中篇 对质量和性能的追求.....................................................................................73 第六章可扩展搜集子系统.......................................................................................75 第一节 天网系统概述和集中式搜集系统结构...........................................................75 一、 天网系统结构.................................................................................................75 二、 集中式搜集系统..............................................................................................76 第二节 利用并行处理技术高效搜集网页的一种方案...............................................82 一、 节点间URL的划分策略..................................................................................83 二、 关于性能的讨论..............................................................................................86 三、 性能测试和评价..............................................................................................88 四、 系统的动态可配置性设计..............................................................................91 第三节 本章小结..........................................................................................................93 第七章网页净化与消重...........................................................................................95 第一节 网页净化与元数据提取..................................................................................95 一、 引言.................................................................................................................95 二、 DocView模型..................................................................................................98 三、 网页的表示.....................................................................................................99 四、 提取DocView模型要素的方法.....................................................................103 五、 模型应用及实验研究....................................................................................108 第二节 网页消重算法................................................................................................112 一、 消重算法.......................................................................................................112 iv 二、 算法评测.......................................................................................................115 第八章高性能检索子系统.....................................................................................120 第一节 检索系统基本技术........................................................................................121 一、 系统设计与结构............................................................................................121 二、 索引创建.......................................................................................................124 三、 检索过程.......................................................................................................126 第二节 倒排文件性能模型........................................................................................127 一、 引言...............................................................................................................128 二、 倒排文件的概念............................................................................................129 三、 倒排文件的一种性能模型............................................................................131 四、 结合计算机性能指标的考虑........................................................................136 第三节 混合索引技术................................................................................................138 一、 引言...............................................................................................................138 二、 混合索引原理...............................................................................................139 三、 混合索引实现...............................................................................................141 第四节 倒排文件缓存机制........................................................................................144 一、 引言...............................................................................................................144 二、 倒排文件缓存...............................................................................................145 三、 负载特性.......................................................................................................147 四、 缓存策略的选择............................................................................................149 第五节 本章小结........................................................................................................149 第九章用户行为的特征及缓存的应用.................................................................151 第一节 用户查询与点击日志....................................................................................152 第二节 用户行为特征的统计分析............................................................................154 一、 用户查询词的分布情况................................................................................154 二、 雷同查询词的衰减统计................................................................................155 三、 相邻N项查询词的偏差分析.........................................................................156 四、 用户在输出结果中的翻页情况统计............................................................158 五、 用户点击URL的分布情况............................................................................159 六、 考虑与不考虑查询项时点击URL分布的对比分析....................................160 七、 查询过程的自相似性....................................................................................161 第三节 查询缓存的使用............................................................................................164 一、 基于用户行为的启示....................................................................................164 二、 缓存替换策略研究........................................................................................165 v 第四节 用户行为与WEB信息的分布特征.................................................................167 一、 基本术语.......................................................................................................167 二、 海量Web信息的特征分析.............................................................................168 第十章相关排序与系统质量评估.........................................................................173 第一节 传统IR的相关排序技术................................................................................173 第二节 链接分析与相关排序....................................................................................176 一、 链接分析.......................................................................................................176 二、 Web查询模式下的新信息............................................................................178 第三节 相关排序的一种实现方案............................................................................182 一、 形成网页中词项的基本权重........................................................................183 二、 利用链接的结构............................................................................................185 三、 收集用户反馈信息........................................................................................187 四、 计算最终的权重............................................................................................189 第四节 搜索引擎系统质量评估................................................................................191 一、 引言...............................................................................................................191 二、 查询类别分析与查询集的构建....................................................................192 三、 评估实验的建立与分析................................................................................193 下篇 面向主题和个性化的WEB信息服务..........................................................196 第十一章中文网页自动分类技术.........................................................................197 第一节 引言................................................................................................................197 第二节 文档自动分类算法的类型............................................................................197 第三节 实现中文网页自动分类的一般过程.............................................................199 第四节 影响分类器性能的关键因素分析.................................................................201 一、 实验设置.......................................................................................................201 二、 训练样本.......................................................................................................202 三、 特征选取.......................................................................................................207 四、 分类算法.......................................................................................................210 五、 截尾算法.......................................................................................................216 六、 一个中文网页分类器的设计方案................................................................218 第五节 天网目录导航服务........................................................................................219 一、 问题的提出...................................................................................................219 二、 天网目录导航服务的体系结构....................................................................220 三、 天网目录的运行实例....................................................................................221 第六节 本章小结........................................................................................................221 vi 第十二章搜索引擎个性化查询服务.....................................................................223 第一节 基于WEB挖掘的个性化技术.........................................................................223 一、 Web挖掘技术................................................................................................224 二、 典型个性化Web服务系统的比较.................................................................225 三、 基于Web挖掘的个性化技术的发展.............................................................226 第二节 天网知名度系统............................................................................................227 一、 系统结构.......................................................................................................227 二、 网页与命名实体的相关度评价....................................................................231 第十三章面向主题的信息搜集与应用.................................................................235 第一节 主题信息的搜集............................................................................................235 一、 主题信息分布的局部性................................................................................235 二、 一种主题信息搜集系统................................................................................236 第二节 主题信息的一种搜集与处理模型及其应用.................................................238 一、 模型设计.......................................................................................................238 二、 应用实验:以“十六大”为主题................................................................242 三、 总结与讨论...................................................................................................244 参考文献...................................................................................................................245 附录. 术语................................................................................................................256 后记...........................................................................................................................264 vii

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值