搜索技术
文章平均质量分 60
iptvspace
搜索引擎未来会发展成什么样呢?欢迎感兴趣的朋友能一起来讨论!~
展开
-
搜索引擎统一Robots文件标准
搜索引擎三巨头打的不亦乐乎,但偶尔也合作一下。去年Google,雅虎,微软就合作,共同遵守统一的Sitemaps标准。前两天三巨头又同时宣布,共同遵守的robots.txt文件标准。Google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及Meta标签的标准,以及一些各自特有的标准。下面做一个总结。三家都支持的robots文件记录包转载 2008-07-08 17:00:00 · 572 阅读 · 0 评论 -
Nutch中metadata的分析
作为Nutch中的一个非常重要的数据结构,metadata是一个内容丰富的容器,这里面存储了很多值,同时metadata也是一个信息集合的约束,如果要使用metadata,那它里面的所有声明的静态字符串字段,都是约定的一些固定字段,特别是在操作相关信息的时候,metadata的命名是有特殊含义的.其实从MetaData的类结构中,我们会找到相关的原因.首先,MetaData实现了六转载 2008-06-23 17:59:00 · 570 阅读 · 0 评论 -
lucene的索引源码分析
lucene的索引源码分析 lucene对一系列的文件进行索引时,首先会将物理文件映射为Document类型的文件。Document中包含有和检索相关的field,这个过程将一些感兴趣的内容提取出来,而之后所有的检索都是基于Document的。 lucene的索引分为两种,一种是将不同索引信息写到不同的文件中,一种是使用复合文件索引格式,该索引格式减少转载 2008-06-25 10:18:00 · 758 阅读 · 0 评论 -
中文搜索引擎技术揭密:网络蜘蛛
随着搜索经济的崛起,人 们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引 擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象……而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经成转载 2008-07-03 11:16:00 · 535 阅读 · 0 评论 -
用lucene为数据库搜索建立增量索引
用lucene为数据库搜索建立增量索引用 lucene 建立索引不可能每次都重新开始建立,而是按照新增加的记录,一次次的递增建立索引的IndexWriter类,有三个参数 IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(),isEmpty);其中第三个参数是bool型的,指定它可以确定是增量转载 2008-06-30 14:41:00 · 1084 阅读 · 0 评论 -
Lucene 的索引排序是使用了倒排序原理
Lucene 的索引排序是使用了倒排序原理 其实LUCENE写的真的挺烂的,不论算法还是代码都很一般,不知道国内为什么这么多人都用它,哎,中国程序员的技术水平真的差太远了,不过为了一些初级的程序员做研究之用,还是把这篇文章贴出来吧 Luce转载 2008-07-01 13:16:00 · 4563 阅读 · 3 评论 -
如何测试搜索引擎的索引量大小
背景知识:搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页转载 2008-07-01 16:16:00 · 1500 阅读 · 0 评论 -
站内搜索引擎之比较〔转〕
有很多网站都在网页上加个“站内搜索引擎”、“搜索引擎”、“全文检索”等等相关字样。 用户一用,结果发现,既不能多关键组合查询,也不能支持国际语法,甚至不能支持全文检索,就更别谈不支持相关性排序等真正的搜索引擎具备的功能了。这些搜索和真正的站内搜索引擎有和区别呢? 真正的全文检索应具备 相关性排序技术 和 分词索引功能。 如果需要进行互联网的信息抓取和采集那么还需要网络蜘转载 2008-07-01 16:07:00 · 1206 阅读 · 1 评论 -
俞士汶教授谈中文语言处理(一)
者按:我们多次前往北大计算语言学研究所和俞士汶教授进行了分词方面的技术交流,俞教授的谈话让我们受益匪浅。我们特意对俞教授进行了访谈,希望读到此文的搜索爱好者,也能和我们一起分享分词知识、探讨搜索未来。 访谈正文如下: 1、与英语等欧洲语言相比,中文在信息化处理上有很多不同的障碍,如:输入、分词等。请简要介绍一下中文语言处理的研究领域和存在的挑战? 中文信息处理应该大致划分转载 2008-07-04 11:47:00 · 1127 阅读 · 0 评论 -
俞士汶教授谈中文语言处理(二)
俞士汶教授谈中文语言处理(二) 3、中文分词技术当前面临的主要挑战是什么?互联网的发展和计算能力的提升对其发展有何帮助? 与理论探讨、算法设计、演示系统开发不同,互联网搜索引擎技术要求词语切分技术具有实战能力。在互联网上应用时,歧义切分(交叉歧义和组合歧义)的消解技术仍会碰到解决不了的难题。现在最棘手的可能是“新词”问题。“新词”可定义为词典或训练语料中没有的词。新词种类很多,人名、地转载 2008-07-04 12:31:00 · 1120 阅读 · 0 评论 -
微软将发布"群体搜索"
2月中旬,西班牙巴塞罗那的“网络搜索与数据挖掘大会”(Web Search and Data Mining Conference)上,微软将公布他们的最新研究成果——“群体搜索”(groupization). “毫无疑问,这是微软向搜索界霸主谷歌发出的一张战书.”美国《技术评论》(Technologyreview)杂志撰稿人罗伯特·雷姆斯(Robert Lemos)对此评论道.微软该项目的转载 2009-02-02 20:59:00 · 561 阅读 · 0 评论 -
spidesample 机器人例子(Java)
一个简单的机器人例子(Java) import java.awt.*;import java.net.*;import java.io.*;import java.lang.*;import java.转载 2008-06-26 09:53:00 · 998 阅读 · 0 评论 -
Nutch搜索引擎之分布式文件系统
1.介绍 NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。 文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件转载 2008-06-20 16:30:00 · 780 阅读 · 0 评论 -
文本聚类系统的设计与实现
文本聚类系统的分析系统的功能分析文本聚类系统是应对大规模文本分类的需求而产生的。在项目申请书的分类过程中,各个学科的申请书数以万计,如果仅仅依靠人工将申请书进行分门别类的划分,不但任务繁重,而且可能会耽误评审工作的进行。为了解决这一问题,我们提出了一种文本聚类系统的设计,用来对申请书进行聚类,实现项目申请书的自动分类。文本聚类系统并不是一成不变的,随着技术的进步和实际问转载 2008-06-11 16:33:00 · 2511 阅读 · 1 评论 -
搜索引擎网站:网络和安全规划一个都不能少
XXX网网络,服务器和安全规划 1.现状分析 XXX网是一个极具创意的人才搜索引擎网站,目前由两台服务器构成,使用流行的Linux+Apache + Mysql架构,日访问量在几十万PV。该网站处于刚刚起步阶段,目前面临很好的发展机遇,需及时扩容以更好地满足用户访问需求。2.预期目标 公司管理层希望通过本次网站扩容,使其达到日访问量1千万 PV 的大型人才搜索网转载 2008-06-12 16:08:00 · 2489 阅读 · 1 评论 -
Hadoop分布式文件系统:架构和设计要点
一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在千兆至转载 2008-06-12 16:49:00 · 531 阅读 · 0 评论 -
剖析NUTCH爬虫
1. 简介开源项目NUTCH搜索引擎大致包括三个部分:(1) 爬虫:寻找并抓取网页(2) 网页库:存储已知URL和已抓取网页的数据库(3) 索引器:解析网页并按照主题字典建立索引2. NUTCH命令脚本NUTCH使用多个"bin/nutch"命令脚本进行操作,其中每个脚本命令与一个java类相对应对于整个网络网页的抓取,你需要利用下面的转载 2008-06-11 17:09:00 · 820 阅读 · 0 评论 -
Hadoop--海量文件的分布式计算处理方案
Hadoop 是Google MapReduce的 一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以 不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发转载 2008-06-11 16:43:00 · 906 阅读 · 0 评论 -
360度解读李彦宏:后搜索时代的百度新拼图
近来百度受关注点颇多,酝酿推出C2C,聘用日本站总裁,以及调整财经频道。搜索已经进入一个相对成熟的阶段,李彦宏正在涉及新的兴奋点。 这种布局不是孤立的,是之前竞争格局的延伸。2000年之后,百度在搜索中寻觅到机会,随后在纷乱中脱颖而出……很难说是百度希望拥有更多的,还是竞争把它往这些方向推。 留学 李彦宏(Robin Li),1968年11月生于山西阳泉市,父母是工转载 2008-09-02 13:01:00 · 1603 阅读 · 0 评论 -
DotLucene源码浅读: Lucene.Net.Analysis
本系列笔记将以DotLucene的命名空间组织行文,阅读的DotLucene版本是1.9.RC1,并且以更好的使用而非研究为目的阅读。也就是说要避难就易拉。0), DotLucene主要命名空间概览: 命名空间 功能说转载 2008-06-16 09:47:00 · 652 阅读 · 0 评论 -
lucene分词原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们转载 2008-06-16 15:39:00 · 633 阅读 · 0 评论 -
云计算(cloud computing)10问
云计算这个新名词最近甚嚣尘上,最近周围不少朋友都在谈,有必要写一个关于云计算的科普了。 一般的业界比较喜欢用一些新名词来体现自己的战略眼光和与对手的区隔。当几个月前google提出云计算的概念的时候,amazon说自己做的事情就是云计算,IBM、intel、sun都声称自己在云计算领域有深刻的计划。只可惜大家听了半天仍然不知道什么是云计算,依旧云里雾里知道这个与计算有关,干转载 2008-06-19 18:44:00 · 733 阅读 · 0 评论 -
人际关系搜索引擎及实现原理
这几天看到了 http://renlifang.msra.cn/ 这个搜索, 感觉这是一个自己一直想实验做做的东东,没想到已经有人将它实现了~ 看地址似乎是微软的一个官方实验平台; 不知它的发展规划如何? 简单说2句,倒推它的实现原理,还是新瓶装旧酒~ 还是分词-->分析人名关键词-->聚类,然后为人名词和人名词之间建立索引~; 并没有语义的分析在里面, 谁知道有原创 2010-03-08 17:08:00 · 1325 阅读 · 0 评论