1. 搜索引擎理论
文章平均质量分 74
Kangsheng
这个作者很懒,什么都没留下…
展开
-
中文搜索引擎技术揭密:系统架构(五)
来源:e800.com.cn 搜索引擎细化趋势 随着搜索引擎市场空间越来越大,搜索引擎也分得越来越细。互联网没有国界,百度总裁李彦宏所讲:搜索引擎市场是赢家通吃的市场。如果一个搜索引擎要想在搜索市场上有自己的一席之地,必须拥有自己的特色。而且,数以亿计的网民,搜索需求不可能都一样,不同类型的用户需要不同类型的搜索引擎,网页搜索只是搜索需求中的一种,这就决定了搜索引擎会不断细化,各具特色的搜索引擎也原创 2005-03-19 11:04:00 · 5312 阅读 · 0 评论 -
什么是搜索引擎
搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。 搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找原创 2005-03-22 11:04:00 · 2993 阅读 · 0 评论 -
搜索算法基础教程
搜索算法是利用计算机的高性能来有目的的穷举一个问题的部分或所有的可能情况,从而求出问题的解的一种方法。搜索过程实际上是根据初始条件和扩展规则构造一棵解答树并寻找符合目标状态的节点的过程。所有的搜索算法从其最终的算法实现上来看,都可以划分成两个部分──控制结构和产生系统,而所有的算法的优化和改进主要都是通过修改其控制结构来完成的。现在主要对其控制结构进行讨论,因此对其产生系统作如下约定:Fu原创 2005-03-19 12:05:00 · 6401 阅读 · 7 评论 -
槛外人观察 :语义和语用
周锡令 :xlzhou0421@vip.sina.com 据说,既涉及人工语言,又涉及自然语言的“符号学(Semiotics)”是由三部分组成的:语法、语义 和 语用。 遵守语法,大家可以使用规范的语言,弄清楚语义,彼此就交流了思想。那么还要讨论语用干什么呢?按照Webster 词典的解释,语用学(pragmatics)就是原创 2005-03-19 11:58:00 · 2395 阅读 · 0 评论 -
在计算机的立场上讨论汉语理解问题
Understanding Chinese Language from the View Point of ComputerZhou, XilingProfessorBeiJing Information Technology InstituteAug. 16,1997 AbstractIt is important to distinguish two mode of information t原创 2005-03-19 11:47:00 · 1997 阅读 · 0 评论 -
关于“形式化”问题的讨论
周锡令:xlzhou0421@vip.sina.com开场白甲:在有关自然语言处理的资料中,常常可以看到“要将自然语言形式化”的说法,例如,有一次我在一份资料中看到:自然语言文本中的信息主要是面向人的,其内容(语义)没有形式化的表示,所以计算机是难以处理的、或者说:而要计算机对信息内容进行处理的一个先决条件就是信原创 2005-03-19 11:42:00 · 6166 阅读 · 0 评论 -
浅谈互联网信息挖掘技术
章成敏 章成志中国药科大学图书馆 (南京农业大学信息管理系)摘 要 本文就互联网信息挖掘技术进行了简介,对网络信息挖掘中的关键技术、系统流程进行了阐述,结合农业网络信息挖掘系统的开发及应用,指出网络信息挖掘的应用前景。关键词 数据挖掘 互联网 网页 信息提取 About the WDM Technology Zhang Chengzhi (Department of Information Man原创 2005-03-19 11:19:00 · 2520 阅读 · 0 评论 -
中文搜索引擎技术揭密:系统架构(二)
来源:e800.com.cn 搜索引擎技术和分类 搜索引擎的技术基础是全文检索技术,从20世纪60年代,国外对全文检索技术就开始有研究。全文检索通常指文本全文检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技术上逐渐发展起来,并得到广泛的应用,但搜索引擎还是不同于全文检索。搜索引擎和常规意义上的全文检原创 2005-03-19 11:09:00 · 2207 阅读 · 0 评论 -
中文搜索引擎技术揭密:系统架构(三)
来源:e800.com.cn 搜索引擎的系统架构 这里主要针对全文检索搜索引擎的系统架构进行说明,下文中提到的搜索引擎如果没有特殊说明也是指全文检索搜索引擎。搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。 1、从互联网上抓取网页 利用能够从互联网上自动收集网页的 网络蜘蛛 程序,自动访问互联网,并沿着任何网页中的所有URL爬原创 2005-03-19 11:06:00 · 1989 阅读 · 0 评论 -
基于数据挖掘的课程相关 性方法研究与实现
随着基于网络的信息系统的大范围应用,大量的历史数据为辅助决策奠定了极好的基础。在基于校园网络的教学管理系统中,随着应用,有关教学的信息已具备形成一个教学信息数据仓库的条件。另一方面,教学规模的扩大,教务管理人员以及任课教师很难再像从前那样直接根据学生的成绩数据分布找出诸如前期课程与后继课程的关系,并据此进行教学进程的决策。因此借助于相应的数据挖掘工具,发现数据中隐藏的课程相关规律或模式,为决策提供原创 2005-03-19 12:07:00 · 3383 阅读 · 0 评论 -
什么是“心理诉求”?
周教授: 谢谢赐教。您的文章总是很耐读的。 我有一个问题:什么是“心理诉求”?为什么这种“心理诉求”是人类使用的“所有自然语言共有的,与语言的种类无关的”?这一点您还没有证明,如果证明了或论证了,就完满了。 还有一点小提醒:您的“词无定类”在标题中是对的,在之后的正文中均笔误为“词无定论”了。 顺颂夏安原创 2005-03-19 11:59:00 · 6026 阅读 · 0 评论 -
Web搜索引擎技术综述
摘要随着网络与通信技术的迅速发展,web信息爆炸性的增长,已经成为一个巨大的海量信息空间。如何快速、准确、方便的从如此庞大的信息库中获取自己需要的信息,是互联网用户面临的一个重要问题。Web搜索引擎能为用户提供一种查找所需资源的服务,已经成为互联网上仅次于电子邮件的第二大服务。本文首先介绍了搜索引擎的原理和实现技术。然后讨论了搜索引擎技术发展最新前沿技术。最后,结合笔者在这方面的研究,给出了搜索原创 2005-03-19 11:31:00 · 2262 阅读 · 0 评论 -
中文搜索引擎技术揭密:系统架构(一)
来源:e800.com.cn 互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦原创 2005-03-19 11:09:00 · 1721 阅读 · 0 评论 -
中文搜索引擎技术揭密:系统架构(四)
来源:e800.com.cn 搜索引擎的索引和搜索 对于网络蜘蛛技术和 排序技术 请参考作者其它文章[1][2],这里以Google搜索引擎为例主要介绍搜索引擎的数据索引和搜索过程。 数据的索引分为三个步骤:网页内容的提取、词的识别、标引库的建立。 互联网上大部分信息都是以HTML格式存在,对于索引来说,只处理文本信息。因此需要把网页中文本内容提取出来,过滤掉一些脚本标示符和一些无用的广告信息,同原创 2005-03-19 11:05:00 · 1420 阅读 · 0 评论 -
搜索引擎分类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teom原创 2005-03-22 11:36:00 · 2204 阅读 · 0 评论