自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sunlen的专栏(编程技术探讨)

十年磨一剑,只等待出鞘的那一刻!!!

  • 博客(21)
  • 收藏
  • 关注

原创 oracle中如何删除重复数据

        我们可能会出现这种情况,某个表原来设计不周全,导致表里面的数据数据重复,那么,如何对重复的数据进行删除呢?        重复的数据可能有这样两种情况,第一种时表中只有某些字段一样,第二种是两行记录完全一样。一、对于部分字段重复数据的删除        先来谈谈如何查询重复的数据吧。        下面语句可以查询出那些数据是重复的:  select 字段1,字段2,count(*

2005-12-23 14:45:00 7183 10

原创 给textarea增加长度的限制

给textarea增加长度的限制    我们知道文本框可以有一个为maxlength的属性,可以限制文本框的长度,当时备注框textarea却没有,那么要怎样限制备注框的长度呢?其实很简单,只有加上想这样一句话onKeyDown=if (this.value.length>=20){event.returnValue=false}就可以了,整个写法如下:=20){event.returnVal

2005-12-22 12:43:00 3754 3

转载 搜索引擎技术核心揭密

编者按:这是一篇精彩的编程教学文章,不但详细地剖析了搜索引擎的原理,也提供了笔者自己对使用PHP编制搜索引擎的一些思路。整篇文章深入浅出,相信无论是高手还是菜鸟,都能从中得到不少的启发。   谈到网页搜索引擎时,大多数人都会想到雅虎。的确,雅虎开创了一个互联网络的搜索时代。然而,雅虎目前用于搜索网页的技术却并非该公司原先自己开发的。2000年8月,雅虎采用了Google(http://www.go

2005-12-11 17:01:00 1497

转载 用Javascript制作站内搜索器

   用JavaScript做的站内搜索不仅编程实现、维护起来很简单,而且它能在客户端浏览器直接执行,无须服务器的支持,也可以省去申请有脚本执行权限空间的麻烦。所以,只要你愿意动手,有个人主页就能有自己的站内搜索。下面让我们共同来做一个基于JavaScript的站内搜索的脚本,可不要小看它,做完了你就知道它的好处了。     首先,你要编写一个搜索表单,将用户要搜索的数据提交给JavaScript

2005-12-11 17:01:00 3842

转载 瞬间搜索海量数据

编者按: 2004年9月,《每周电脑报》受中国轻工业联合会、中国轻工业企业信息化领导小组的委托,进行了《全国轻工业企业信息化调查》,结果表明几乎所有的企业都认为目前信息化建设的问题是:“数据信息利用不充分,大量的数据仅以物理状态被简单地存储着。同时由于无法实现海量数据的高效搜索,使得这些数据无法为企业的发展提供决策支持。”其实,这种情形,不仅在轻工行业存在,在其它行业、企业也同样存在。那么,如何打

2005-12-11 16:59:00 2739

转载 孰优孰劣 如何评断?——搜索引擎性能评价的方法

在20世纪90年代中期,人们将已发展到一定程度的文本信息检索技术应用到Internet上,发明了检索各种信息资源的搜索引擎。随着各种搜索引擎的出现,人们也开始探索比较和评价其性能的方法。 方法不同 各有千秋 根据比较评价方式的不同,一般可以将其划分为以下几类: 1. 以描述为主的搜索引擎评价方式 这种评价方式大多是从搜索引擎的在线使用手册和个人的使用经验出发,集中在对单个搜索引擎的使用方法及特色服

2005-12-11 16:57:00 3921

转载 第二代搜索引擎—大量应用人工智能是标志

第二代搜索引擎厂商的特点是只做后台技术的提供者,这是美国互联网发展的教训。因为网络最初发展时最迫切需要的是搜索,于是同时出现了许多搜索引擎,但是后来各厂商认识到作为独立公司单独开发搜索引擎不能维持长期发展,于是又都发展成门户,提供了许多别的内容,但它们很快发现搜索不像新闻一样没有什么技术含量。而作为一个公司,则要同时肩负两个任务,一是创建门户类的平台,这是打市场、创品牌的过程,二是开发搜索引擎,而

2005-12-11 16:55:00 1761

转载 基于JAVA的全文索引引擎Lucene简介(中)

安装和使用下载:http://jakarta.apache.org/Lucene/注意:Lucene中的一些比较复杂的词法分析是用JavaCC生成的(JavaCC:Java Compiler Compiler,纯JAVA的词法分析生成器),所以如果从源代码编译或需要修改其中的QueryParser、定制自己的词法分析器,还需要从http://www.webgain.com/products/jav

2005-12-11 16:53:00 2586

转载 基于JAVA的全文索引引擎Lucene简介(上)

基于JAVA的全文索引/检索引擎——Lucene Lucene不是一个完整的全文索引应用,而是是一个用JAVA写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。Lucene的作者:Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,后在Excit

2005-12-11 16:52:00 2225

转载 黑客:搜索引擎技巧让您成为黑客

利用 Google 突破各种封锁来下载你要的东西在搜索框上输入:"index of/ "inurl:lib 再按搜索你将进入许多图书馆,并且一定能下载自己喜欢的书籍。 在搜索框上输入: "index of /"cnki 再按搜索你就可以找到许多图书馆的CNKI、VIP、超星等入口! 在搜索框上输入: "index of /"ppt 再按搜索你就可以突破网站入口下载powerpint作品! 在搜索框

2005-12-11 16:50:00 4509

转载 第三代搜索引擎技术与P2P

  第二代搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言为查询语言方面也做了一些探索。然而,随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。IDC在2001年下半年公布的一份报告表明,前期被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太

2005-12-11 16:48:00 1781

转载 Google搜索从入门到精通V3.6

内容1,前言2,摘要3,如何使用本文4,Google简介5,搜索入门6,初阶搜索6.1,搜索结果要求包含两个及两个以上关键字6.2,搜索结果要求不包含某些特定信息6.3,搜索结果至少包含多个关键字中的任意一个7,杂项语法7.1,通配符问题7.2,关键字的字母大小写7.3,搜索整个短语或者句子7.4,搜索引擎忽略的字符以及强制搜索8,进阶搜索8.1,对搜索的网站进行限制8.2,查询某一类文件8.3,

2005-12-11 16:46:00 1927

转载 搜索引擎目录

【国外搜索引擎目录】  雅虎、搜狐、新浪、Google等搜索引擎使用它们的人何止千万。但是,面对众多功能强大的搜索引擎我们该选择谁?   名气大的就好吗? ----------------------------------------------------------------〖著名目录类搜索引擎〗〖美国、加拿大地区英文搜索引擎〗〖英国等地区搜索引擎〗〖德国搜索引擎〗〖意大利搜索引擎〗〖俄罗

2005-12-11 16:43:00 6861

转载 中文搜索引擎技术揭密:中文分词

   信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。    搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、

2005-12-11 16:40:00 1436

转载 中文搜索引擎技术揭密:系统架构(3)

  标引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种标引:文档标引和关键词标引。文档标引分配每个网页一个唯一的docID号,根据docID标引出在这个网页中出现过多少过wordID,每个wordID出现的次数、位置、大小写格式等,形成docID对应wordID的数据列表;关键词标引其实是对文档标引的逆标引,根据wordID标引出这个词出现在那些网页(用wordID表示),出现在每个网页

2005-12-11 16:37:00 2222

转载 中文搜索引擎技术揭密:系统架构(2)

搜索引擎的系统架构  这里主要针对全文检索搜索引擎的系统架构进行说明,下文中提到的搜索引擎如果没有特殊说明也是指全文检索搜索引擎。搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。    1、从互联网上抓取网页  利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把

2005-12-11 16:36:00 1284

转载 中文搜索引擎技术揭密:系统架构(1)

  【e800.com.cn 编者按】互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅

2005-12-11 16:35:00 1420

转载 中文搜索引擎技术揭密:网络蜘蛛(4)

   内容提取    搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。    对于doc、pdf等文档,这种由专业厂商提供的软

2005-12-11 16:33:00 1920

转载 中文搜索引擎技术揭密:网络蜘蛛(3)

网站与网络蜘蛛    网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝网(http://www.taobao.com)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应

2005-12-11 16:30:00 1430

转载 中文搜索引擎技术揭密:网络蜘蛛(1)

    【e800.com.cn 编者按】随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象……    而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得

2005-12-11 16:25:00 1532

转载 中文搜索引擎技术揭密:网络蜘蛛(2)

网络蜘蛛基本原理    网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就

2005-12-11 16:17:00 1054

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除