第2次实验——算法基本功 与 综合思考

(3)算法综合实践——搜索引擎

    上网搜索有关“搜索引擎”的相关资料,包括但不限于以下方面(至少要有2个方面):搜索引擎岗位要求、搜索引擎工作原理、搜索引擎涉及到教材中哪些算法、搜索引擎的盈利模式、搜索引擎源码链接、国内外搜索引擎公司现状等。

答:
一、搜索引擎的分类

  获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。
 二、搜索引擎的工作原理

  全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。
搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序
三、搜索引擎核心算法
搜索引擎核心算法就是排列链接,网址价值的计算法则。
四、搜索引擎的盈利模式
搜索引擎的主要盈利模式是付费广告,还会有其他一些的付费增值体系。因为搜索引擎是对用户免费的,但一个免费的搜索引擎要创造自身价值及利益就会依靠公司企业等一系列要做网络推广的客户。
五、国内外搜索引擎公司现状
MSN Search  Microsoft 的 MSN Search, 由 LookSmart 支持,二级查询结果由 Inktomi 提供。 Overture (严格说是PPC搜索引擎) 将顶部的查询结果提供给 MSN. 为对 MSN 成功优化网站,那么必须仔细考虑 LookSmart 和 Inktomi 的排名要求。在某些情况下, Direct Hit 的查询结果也会体现在该搜索引擎上。 

Yahoo  一致公认的最佳搜索引擎之一(严格说是分类目录),它的web查询结果来自Google. 收录在它分类目录中的网站,其查询结果以分类目录的查询结果显示。商业站点收录至分类目录的年费用为299美金,它将用几周到几月的时间才会给您结果,告诉您网站最终是否被收录。 

Google  免费搜索引擎。顶部搜索结果将列入 LookSmart, Yahoo, 及 Open Source Directory. 
Google 非常关注外部链接,如果一个网站有较多质量较好的外部链接,将获得较高的排名。它的 AdWords/AdSelect 也将作为查询结果显示。 

(4)实习与工作

    上招聘网站(如 51job、智联招聘)上查看自己感兴趣的职位与要求。作业要求:写下自己感兴趣工作的至少2个岗位名称(如Java程序员、搜索引擎工程师)、工作岗位具体要求、自身目前具备哪些条件、有哪些不足的地方并如何弥补。

答:通过对我自己的自我分析和反省,我觉得我现在最感兴趣的两个工作岗位是:

1、Java程序员

1)职业要求

精通java基础,java高级编程,及常用java设计模式,深入理解mvc编程模式,了解uml相关知识;
掌握struts2、spring、hibernate等主流java开源框架技术;
熟练掌握web应用程序设计相关的jsp、javascript、ajax、css、html等技术;
熟悉db2、orcale、ms sql server、mysql数据库其中一种,主要是oracle;
有较强的新技术学习能力,和良好的沟通能力和理解能力。
2)自身条件
    掌握Java基础,Java高级编程及一些常用Java设计模式
    掌握web开发相关的jsp,javascript,css,html等一些技术
    熟悉oracle,sql server,mysql等数据库,主要是oracle
  有较强的学习能力和良好的沟通能力及理解能力
3)缺陷
对一些高技术缺乏深入的了解
实践经验不足,这是最大缺点
全面知识掌握不够
4)
认真学习,多操作实践以及请教同学老师
2、dba
1)岗位职责:
1、负责公司BIEE报表系统的开发维护工作;
2、针对业务需求进行分析,编写设计开发文档、测试文档等相关文档;
3、负责BIEE后台管理和调优;
任职资格:
1、精通ORACLE BIEE开发,熟悉Admin Tool、BI Answers、Dashboard等工具;
2、有过2年以上的BIEE项目实施开发经验,能独立进行BIEE的建模以及报表设计展示;
3、精通PLSQL开发,熟悉Oracle数据库的开发和使用;
4、要求能够独立完成设计,开发,单体测试等开发流程。
5、有ODI使用经验优先
2)自身条件
熟悉oracle,sql server,mysql等数据库,主要是oracle
3)缺陷
对一些高技术缺乏深入的了解
实践经验不足,这是最大缺点
全面知识掌握不够
4)
认真学习,多操作、实践以及请教同学老师


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值