互联网与搜索引擎

:: ©技术专题:: ©互联网:: ©:电子商务: ©局域网搜索引擎研究与开发::

网页爬虫汇总

网络爬虫,你知道多少? 网页爬虫汇总 Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。http://crawler.archive.org/WebSPHINX WebSPHINX是一...

2009-10-27 23:13:00

阅读数:1418

评论数:0

Lucene(Nutch)距离商业文本搜索引擎还有多远

注(2007-5-22):最新一次更新的时候,我再次研究了一下Lucene,读完了Lucene In Action,并且实际的使用Lucene构建了一个小型的搜索系统之后,我感觉到很惭愧,因为我一直对Lucene有不满的心理,认为它做的不好(可能受了国内的某些使用Lucene构建搜索引擎的网站的影...

2009-10-27 22:51:00

阅读数:712

评论数:0

在 Linux 下建立 FTP 搜索引擎

  Linux正大行其道,不少朋友相信已经用它架设过各种服务,什么Web、FTP、BBS等等等啦,这次,我向大家介绍另外一个在linux下运行的服务器软件----NoseyParker,一个强大的FTP搜索引擎,只要一些简单的步骤,一个强大的搜索引擎举手间就建立起来了,各位且听我慢慢道来。   p...

2005-12-07 12:56:00

阅读数:1847

评论数:20

第三代搜索引擎何去何从?

这是偶在CSDN上看到的一篇有关搜索引擎的文章,原文地址:http://news.csdn.net/news/newstopic/9/9719.shtml一度被冷落的搜索引擎终于走到了前台,尽管如此,新一代搜索引擎取代旧搜索引擎的历史依然会继续演绎,以Google为代表的第二代搜索引擎似乎又走到了...

2005-08-17 02:17:00

阅读数:1106

评论数:0

浅谈互联网信息挖掘技术

章成敏 章成志中国药科大学图书馆 (南京农业大学信息管理系)摘 要 本文就互联网信息挖掘技术进行了简介,对网络信息挖掘中的关键技术、系统流程进行了阐述,结合农业网络信息挖掘系统的开发及应用,指出网络信息挖掘的应用前景。关键词 数据挖掘 互联网 网页 信息提取 About the WDM Techn...

2005-08-05 01:41:00

阅读数:1317

评论数:0

中文搜索引擎技术揭密: 中文分词(三)

中文分词技术 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又...

2005-08-05 01:35:00

阅读数:978

评论数:0

汉语分词在中文软件中的广泛应用

  一、 为什么需要汉语分词我们知道,汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。” [1], 我们还知道,“词是最小的能够独立活动的有意义的语言成分。”[2] 然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。显而易见,自动识别词边界,将汉字串切分为正确的词串的...

2005-08-05 00:53:00

阅读数:1054

评论数:0

汉语自动分词研究评述『转』

【标题】汉语自动分词研究评述【原文出处】当代语言学【原刊期号】200101【标题注释】本项研究得到国家自然科学基金(项目号:69705005)和国家重点基础研究发展规划项目(项目号:G1998030507)的资助。【作者】孙茂松/邹嘉彦【作者简介】孙茂松,清华大学    邹嘉彦,香港城市大学   ...

2005-08-05 00:52:00

阅读数:1705

评论数:0

搜索引擎面面观 技术系列之一

搜索引擎面面观 技术系列之一 document.title="搜索引擎面面观 技术系列之一 - "+document.title因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题,它可以为用户提供信息检索服务。目前...

2005-07-31 23:39:00

阅读数:1254

评论数:0

搜索引擎技术发展观系列之二

搜索引擎技术发展观系列之二 document.title="搜索引擎技术发展观系列之二 - "+document.title随着“眼球经济”席卷互联网,成千上万的资金迅速流向最能吸引眼球的搜索引擎市场。有大量调查显示搜索引擎市场正处在高速发展时期,成为未来几年最具发展潜力的产...

2005-07-31 23:37:00

阅读数:1245

评论数:0

PHP搜索引擎技术核心揭密[转]

PHP搜索引擎技术核心揭密 文章来源:奕天锐新时间:2004-5-20 14:01:37  编者按:这是一篇精彩的编程教学文章,不但详细地剖析了 搜索引擎的原理,也提供了笔者自己对使用PHP编制搜索引擎的一些思路。整篇文章深入浅出,相信无论是高手还是菜鸟,都能从中得到不少的启发。   谈到网页搜索...

2005-07-31 23:21:00

阅读数:935

评论数:0

网络搜索引擎与智能代理技术

互联网在全球范围内的迅速发展与成熟,促使社会各领域信息飞速膨胀,为人们查找、获取有用信息提供了丰富的信息源,但也给信息的准确定位提出了挑战。提供网上资源的检索是网络信息服务的重要内容之一,加之现代人也对信息把握的正确性和全面性提出了越来越高的要求,因此,当务之急是开发性能优越的网络信息检索工具。1...

2005-07-31 22:46:00

阅读数:1199

评论数:0

自动分词与中文搜索引擎

转载:笔者一直从事中文自动分词的研究,其中一个朴素的想法就是该研究对WWW上的中文搜索引擎一定会有帮助,但又常常为开放环境下自动分词难以达到满意的精度而苦恼。近来忽似有所悟,在此将点滴心得写出来,以抛砖引玉。一个关于中文搜索引擎的“有趣”体验   先讲一段笔者的“有趣”经历。一日,偶然想在WWW上...

2005-07-31 22:41:00

阅读数:1089

评论数:0

如何在lucene中使用中文自动分词技术- -

偶在http://yuanlang.blogdriver.com/yuanlang/index.html上看到的一篇关于分词的文章前段时间我试着在lucene中使用了自动分词技术,有不少朋友都很感兴趣。大致方法就是生成自动分词的dll,然后在java中用jni调用。前几天我整理一下,做了一个方便使...

2005-07-28 00:19:00

阅读数:3245

评论数:2

基于JAVA技术的搜索引擎的研究与实现

基于JAVA技术的搜索引擎的研究与实现            目录      目录.........................................................................................................

2005-07-27 23:25:00

阅读数:1780

评论数:1

搜索文摘

 为什么Google不可能委身微软?《福布斯》封面文章:Google创造互联网成功奇迹综述:Google的中国十字路口 中文搜索引擎的十大误区信息检索的核心支撑技术网上搜索的加速方法综述:大鱼Google面对问题

2005-07-27 14:00:00

阅读数:965

评论数:0

搜索引擎技术及趋势

  随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。   搜索引擎(Search Engine)是随着WEB信息的迅速增加,从19...

2005-07-26 22:19:00

阅读数:1489

评论数:0

搜索引擎面面观

搜索引擎面面观 技术系列之一因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题,它可以为用户提供信息检索服务。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎(Search Engine)是随着WEB信息的迅...

2005-05-02 01:06:00

阅读数:1289

评论数:0

搜 索 引 擎 分 类

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎   全文搜索引擎是名副其实的搜索引擎,国外具代表性的...

2005-05-01 23:59:00

阅读数:961

评论数:0

信息检索的核心支撑技术

关键词:信息检索   (Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历...

2005-05-01 03:33:00

阅读数:1245

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭