搜索引擎的设计与实现(一)

43 篇文章 0 订阅
43 篇文章 0 订阅

目录

 摘要

1 绪论

1.1 项目背景

1.2 国内外发展现状及分类

1.3 本论文组织结构介绍

2 相关技术介绍

2.1什么是搜索引擎 

2.2  sqlserver数据库

2.3 Tomcat服务器


免费源代码&毕业设计论文

搜索引擎的设计与实现

 摘要

        我们处在一个大数据的时代,伴随着网络信息资源的庞大,人们越来越多地注重怎样才能快速有效地从海量的网络信息中,检索出自己需要的、潜在的、有价值的信息,从而可以有效地在日常工作和生活中发挥作用。因为搜索引擎这一技术很好的解决了用户搜索网上大量信息的难题,所以在当今的社会,无论是发展迅猛的计算机行业,还是作为后起之秀的信息产业界,都把Web搜索引擎的技术作为了争相探讨与专研的方向。

        搜索引擎的定义就是指按照既定策略与方法,采取相关的计算机程序,通过在互联网中进行寻找信息,并显示信息最后把找到的信息进行整理筛选,为搜索引擎的使用者提供检索信息的服务,终极目标是为了提供给使用者,他所搜索信息相关的资料计算机系统。搜索引擎的种类繁多,既可以进行全文的索引,还可以进行目录的索引,不仅有集合式搜索引擎,还有垂直搜索的引擎以及元搜索引擎。除此之外,还有门户搜索引擎免费链接列表等。 

        本文首先介绍了搜索引擎出现的必要性,以及什么是搜索引擎、搜索引擎的分类、处理流程、核心技术,同时也对如何才能提高搜索引擎的精准度以及关联度进行了更加深入的研究。 

         关键词: Web搜索引擎、信息检索、人机交互、Lucene全文检索引擎

1 绪论

1.1 项目背景

        环球信息网(World Wide Web),即3W,一般在计算机与信息行业用Web这个词汇来来表示,万维网是它进入中国时所赋予的称呼,其实,这就是一个资料的汇集与存储的空间

        在这个空间中,以事物为单位,一个事物也可以称为一样“资源”,利用URL来标识,统一资源标识符”(URL。这些资源通过超文本传输协议(Hypertext Transfer ProtocolHTP)传送给终端用户其中给到用户手上的是一个个链接,然后用户通过逐层点击链接,就可以查看到资源,也可以获得资源。

  万维网人们误以为是因特网的近义词,在这里必须要表明的概念是:万维网与因特网存在着本质的区别。因特网(Internet,把世界所有的各类型电脑,利用网络连接,所形成的硬件框架,这是一个实实在在的“网”。万维网,其本质是一种功能,即让使用者光看面,而页面之间又交相辉映,从而让使用者觉得这也是一种“网”,但这种网是虚拟的,是不存在的

        可以说1994年在信息时代是一个重大突破的一年,因为万维网(World Wide Web)出现了。在这一改变之前,人们的信息获取方式还是通过各种传统文化传媒,相对于万维网来说是很传统、笨拙的,它在开放性和广泛的可访问性极大的激励了人们创作的积极性。所以万维网的出现极大的缩短了人们信息获取的时间,同时信息的时效性也得到了保障。万维网一出现就收到了全世界各国人的追捧,人们在它出现的十几年的一个时间段中,就在万维网这一平台上发布了几十亿条的网页信息,他的一个数据量是那么的庞大,粗略计算一下,万维网上的网页信息每天都会不断增长几十万。因为网络化、数字化的信息资源,所以网络信息也是有利有弊:利的一面是提高了我们的信息量;不利的一面是庞大的信息一并向我们开来,犹如破堤的江水,汹涌澎湃,造成了我们无所适从。

        关于搜索引擎的由来,北美加拿大(Canada)的麦吉尔大学就必须要介绍一下了,早在上世纪,90年代之初,由于网络资源众多,分散性特别大,人们在找资料的时候特别费力。麦吉尔大学的团队也意识到了这个问题,所以他们就研发出了Archie,这是一个可以自动运行的系统,可以完成在FTP上搜集有用资源的作用。该系统定期会自动搜索FTP系统上保存的文档名以及相关的资源,而且还可以自行分析,如果有客户端发出搜索请求,该系统会根据搜索请求的内容,自动提供保存在主机中文件。在以Web网页为对象的搜索引擎系统的大背景下,搜索引擎被人们当做了在网上查找信息的重要手段,通过搜索引擎系统人们可以在浩瀚的网络海洋中第一时间找到自己真正想要的信息,并且搜索引擎的智能以及现在网页的特性使得人们只要输入相关的词语(即关键词)就可以找到相关的信息。

        现如今,人们看到的百度、Google取得的显著成效,可以说是成为了行业的领头羊,所以整个世界也都把视觉一部分放置在了搜索引擎这一领域当中,各种各样的搜索服务犹如雨后春笋一般争相冒出。搜索引擎不仅种类愈来愈多,而且其服务的质量也越来越全面,从最初期的国外的Google引擎、Yahoo引擎,到如今的中国的Baidu引擎、360引擎等等。随着web技术的不断完善,网络信息资源也是翻倍增长的(变化关系是成正比的)。所以为了满足用户的需要,既可以快速的找到到资源,而且还可以提高资源的质量,各类型的引擎中,必须引入检索这一概念。此外,在企业级应用的市场上,由于搜索的资源需求量大,要求的精度更加高,全文检索的功能也就被人们重视起来了,例如在各种文件档案的处理过程中、企业管理的软件中。

        在这样的环境下,搜索引擎的技术也在迅猛发展。各种讨论搜索引擎的文章、博客、杂志等席卷网络的相关信息。在这个信息化全面进入人们生活各层各面的时代,搜索引擎这项技术无疑会在最热门的技术中占有一席之地。

1.2 国内外发展现状及分类

        当今的时代,网络信息呈现指数型上升,其复杂性不言而喻,而网络检索技术的发展却不尽如人意,有很多方面的不足,具体阐述如下:

        (1) 随着网页数量的迅猛增加,尽管是专业人员,他对所有的认知也存在不足,同时专业人员的工作量也很大,单凭人工操作,是没有办法对如此庞大的信息量进行有效的分类,更不用说是再加以检索和利用了。网络用户接触的是庞大对的、未经组织的信息,只是使用简单的关键词搜索,它对应的反馈给用户的结果冗余度较大且涵盖有限,这是让用户无法接受的。

        (2) 信息实用性评价低迷。有些网站在网页中高频的出现某些关键字,从而轻易的被一些显著的搜索引擎收录,以此来提高该网站的知名度,但实际上它对用户是没有提供任何有价值的信息。

        (3) 网络信息变更过快。如今的社会就是一个快节奏的社会,人们更多的喜欢是速食文化,即尽可能快的获取信息,可是分布式的信息布局,就算网络传输速度再快,要想实现实时的搜索难度堪比登天啊,即使是上一秒刷新过的网页,在下一秒就会有无尽的可能,时效性一直是人们追求网络信息的方向,但却很难做到真正的实时。

        速度和效率往往是会体现这个搜索引擎是否良好的标准,故此,对于网络信息检索工具而言,其发展的主要方向就是,在信息检索的速度和效率是一步一步不断改进和突破,以提高检索的技术,提供更高的检索服务的质量,改善甚至消除局部网络信息检索的用户不满意之处。

        万维网:它是世界上最大的域名注册以及虚拟主机提供商,现在的域名多种多样,不过以www开头的最多,相应的费用也是最贵的,但是,现在还有一批域名不是以www开头,直接二级域名开头,我们在做网站的时候,首先需要购买域名,然后大约根据程序的大小订购服务器,服务器按系统分为linux、window的,按开发语言也可以选择服务器,按代码的上传方式也可以选择服务器,服务器有一定的界面,当然你也可以在linux系统中敲指令来实现,window服务器使用起来比较麻烦,因为你的电脑是window的,然后你要进入另外一台主机中,就会出现只能选择其一的现象,不能同时看到,接着建立站点,设置 ftp,建立数据库,然后上传代码。

1.3 本论文组织结构介绍

        本次设计是在Lucene技术之上进行的开发,最终成功的设计出搜索引擎的全过程。从开始本次设计到最终的实现,都会在下述做详细的介绍:

        第1章 绪论,本章主要从如下几个方面做了阐述:1、本次设计的系统所会面临的问题;2、怎么处理所面临的难题;3、攻克难题的详细内容;4、本次课题是基于什么样的研究背景、意义而进行;5、本次设计的可行性分析以及论文中各章节内容描述。

        第2章 相关技术介绍,对涉及到的理论知识和用到的开发工具做相关阐述。

        第3章搜索引擎的基本原理,详细介绍了搜索引擎的基本组成结构和工作原理。

        第4章 搜索引擎系统的分析与设计,根据所需要实现的功能入手,一步步的完成设计目标。

        第5章 搜索引擎系统的具体设计步骤,分步骤详细地表述了该设计的实现过程以及设计中会遇到的注意事项。

        第6章 系统测试,对系统做了相关测试和评价说明。

        最后:总结、致谢、参考文献。

 

2 相关技术介绍

2.1什么是搜索引擎 

         随着Web信息的爆炸型长,Web搜索引擎的设计就被提上了日程大约是上世纪90年代开始,逐渐的逐渐发展起来。实际上,本次设计的就是一种在互联网,专门给用户提供各种查询信息服务的网站,它以自己特定方式在互联网中寻找信息,并且把信息提取出来,然后再进行理解信息,把信息重新组织以及信息的加工处理,并反馈给用户服务,从而到信息资源导航的目的。用户可以通过自由词、关键字、等方式进行查询,也可以利用全文进行检索,或者根据类别进行搜索,甚至还可以加入一些特有的信息进行限制,例如名字、性别、出版社、序列号等等。 

        如今搜索引擎提供的信息资源导航服务已发展成互联网上非常重要的网络服务之一,搜索引擎网站也被称之为 “网络门户”。

     根据搜集资源与提供给用户的方式进行区别如今的搜索引擎可以分为类:

     (1)目录式搜索引擎:按照为地者是半自动的工作模式去信息,然后指定职业的工作人员查看信息,采取人工的方式对信息进行筛选最终会把检索到的信息分类存放在指定的框架当中。这一类信息大多数是直接与网站进行交互的只可以提供文档目录的查看以及直接检索服务。由于这一类型的搜索引擎引入了人的智能的功能,所以提供的信息质量非常高,精确地匹配所检索的信息;但由于需要指定人员进行查看和分类,这无疑会使得信息的更新不够及时,而且信息量如此之大,会使得维护任务异常繁重。雅虎(yahoo!)就是这一类型的典型代表

    (2)机器人搜索引擎:利用蜘蛛 (spider)程序在互联网中进行自主的检索资源,通过索引器搜的信息绘制索引索引就是依照使用者的输入请求,查看索引库中的内容最终匹配到的结果显示出来,供用户查看这一类型的服务方式是面向web的全文检索。该类搜索引擎相比于目录式的搜索引擎,省去了人工操作的环节,使得更新更加及时,而且由于是计算机自动进行查询,会使得查询得到的信息量大幅提升;但正是由于这样,会使得返回的信息匹配率相比于目录式检索会有所下降,用户所看到的信息过于庞大,还需自身进行筛选。由于其优点突出,目前,比较流行的搜索引擎大多数采取了这一种方式,其中代表性最强的引擎有: google(谷歌)、Baidu(百度)360、

     现在网络的搜索引擎也已经有不少,国际上比较著名的有Google(谷歌)等等。国内目前也建立了很多的搜索引擎,比如:百度、360、搜狐、新浪等。其中,在信息检索准确率全面性这两个指标上,做得较好有Google、百度同时搜索引擎的准确度及相关性还是有待科技人员进一步提高和完善的。  

     Google为例再具体的阐述一下,它可以在检索信息时做到了快、准、狠。它最厉害的优势在于:1、大容量的web存储空间。据保守估计,Google目前收录的Web网页总量己经高达80亿。2、响应速度及时。据数据显示,Google(谷歌)通常寻所用时间大致上小于0.3 s这么卓越的性能是基于数百台高性能硬件服务器以及谷歌公司所使用的的分布式并行查询系统。3、反馈信息全面。据了解,Google查询反馈信息不仅仅集中于各个大型热门网站,同时针对的是更多的特定的Web页面(即便是存放这些页面的网站很冷门),但正是由于这样,才会使得谷歌可以获取的信息,能够和使用者查找的请求具有较高的相关度、匹配性、准确度,Google(谷歌)不断发展改善的页面优先度程序查询到的信息最优化的排序机制,使得谷歌能够在搜索引擎中处于佼佼者的地位。

2.2  sqlserver数据库

        值得介绍的是,数据库是由一个个基本的表组成的,这些表包括约束、规则、索引、触发器、函数、默认值等其他数据库对象,同时这些数据库对象都是依附于表对象而存在的。用自己的概括数据库跟表的关系:数据库是分母(无限大),表是分子(一个表对应一个单位)。

        本次设计,我采用的是sqlserver数据库,主要使用的是sqlserver 2008这款软件,它的最大的优势在于:

  1. 可以很快捷的添加删除修改数据;
    2)它的图形化界面可以很快的建立表与表之间的联系图,一个表的外键关系可以很快地建立出来;
    3)有很强大的安全机制,有自己的导入导出格式,很安全;
  1. 具有强大的功能,事务操作等等。

        它也存在的缺点:在环境配置上要相较其他中小型的服务器要复杂一些,同时我们还知道sqlserver的语法跟mysql,orcale之间有一些像素也有一些不同,包括在转化为mysql或者orcale时都是有些差异的。

2.3 Tomcat服务器

        Tomcat是一个轻量级的应用型服务器,它具有如下的优点:系统的扩展性能优越、服务器的性能非常稳定、服务器的源码开放,便于发烧友的研究与学习以及本身就带有的免费获取的机制,这都是导致Java技术研究人员里有一大批忠于Tomcat的人员。这款服务器还是目前相当流行的Web应用服务器。

        我们都知道,Tomcat既是Servlet容器,还是独立的服务器,如果想要有动态泰德效果,需要把动态数据放在服务器上,基于java语言,Tomcat是一个容器,存放并且运行基于servlet的java程序,像我们熟悉的三大框架都是你可以在Tomcat跑起来的,我们通常会把写好的jsp的网站打包成一个压缩文件,然后放到服务器上,在浏览器中输入域名/网址就可以运行起来了,就可以实现跟数据库的连接,获取到动态数据。

  • 27
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值