搜索引擎
JCJC错别字检测-田春峰
这个作者很懒,什么都没留下…
展开
-
加上一个奇虎,去掉一个中搜
加上一个奇虎,去掉一个中搜 搜索引擎的战火才刚拉开序幕,而普通网民将会在这场无休止的战役中取得实惠。原创 2006-08-17 21:05:00 · 7713 阅读 · 2 评论 -
google 和 unixlite 的设计理念
google 和 unixlite 的设计理念 昨天 feng.you 给我这条信息:the google legacy。 http://www.cincomsmalltalk.com/userblogs/runarj/blogView?showComments=true&entry=3308017355 google的使命是“整合全球信息”,这也决定了在设计google基础软件原创 2006-06-15 20:34:00 · 7216 阅读 · 13 评论 -
通用搜索引擎的垂直化倾向
通用搜索引擎的垂直化倾向 昨天,为了给我的程序加一个管理界面,我在google搜索框中输入 SWT ,后,出现了下图的显示结果页。很显然这项服务超出了google onebox 提供的功能。搜索引擎在猜测我输入swt 的含义,google开始智能化了。 而这正回应了前两天Google公司的首席执行官埃里克·施密特说的Google搜索引擎将融入人工智能的发言。 如果你是一原创 2006-05-27 11:26:00 · 4723 阅读 · 1 评论 -
Solr 企业级搜索引擎简介
Solr 企业级搜索引擎简介 Solr 是一个独立的企业级搜索引擎服务器,并提供类似web-service 的API接口。可以通过http协议把文档以xml格式的方式放入索引库。同样通过HTTP的GET协议接收XML格式的文档。 看到这里我想起了车东主持开发的WebLucene,早在3年前车东就为lucene提供了XML接口,后来吕克让也在此基础上添加了很多功能,大大方便原创 2006-05-16 22:05:00 · 7451 阅读 · 0 评论 -
基于相关关键字搜索引擎优化的网站排名分析项目
基于相关关键字搜索引擎优化的网站排名分析项目 先转载一段新闻: “我在战略上是藐视.COM域名的,明年中国.CN域名注册量将超过.COM”,8月29日,中国互联网络信息中心(CNNIC)主任毛伟对外表示。 CNNIC一直在大力推广中国国家域名“.CN”,不过目前.COM域名的注册量还是第一,据7月19日发布的《第十八次中国互联网络调查报告》显示,中国的域名原创 2006-09-04 23:06:00 · 3384 阅读 · 0 评论 -
Google的Sawzall,Yahoo的Pig和微软的Dryad
Google的Sawzall,Yahoo的Pig和微软的DryadGreg 最近写了篇介绍Google,Yahoo,微软三大巨头公司分布式架构的Blog。这就是:Google的Sawzall,Yahoo的Pig 猪和微软的Dryad 。 这真是一个信息爆炸的时代,在这个大背景里消耗CPU最多的计算会越来越多从“软件本身性能提升”逐渐转移到信息处理的过程中。描述计算速度提高的摩尔定 律,据说现在原创 2007-05-07 10:12:00 · 13740 阅读 · 5 评论 -
怎么会是lucene?
怎么会是lucene? 在好朋友lhelper的帮助下,开始学习全文搜索引擎lucene了。从网上搜索了一些全文搜索的资料后发现这方面的产品很多,光是在http://www.searchtools.com 上你可以查到100多个搜索的工具(包括源代码)。如果你在百度上以“全文搜索”为关键字 搜索的话,会发现除了理论上的介绍以外,大部分的实例都是来自lucene。为什么只有l原创 2004-12-23 22:59:00 · 12953 阅读 · 6 评论 -
不同规则的中文分词对Lucene索引的影响
不同规则的中文分词对Lucene索引的影响 田春峰 在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。原创 2004-12-28 14:47:00 · 17159 阅读 · 13 评论 -
介绍 Nutch 第一部分:抓取 (翻译)
<v:shapetype id="_x0000_t75" coordsize="21600,21600"o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f"stroked="f"><v:shape id="_x0000_s102翻译 2006-01-14 19:15:00 · 17407 阅读 · 6 评论 -
Google's BigTable 原理 (翻译)
Googles BigTable 原理 (翻译) 题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。 ------ 编者 官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的一个翻译 2006-02-09 22:02:00 · 85259 阅读 · 9 评论 -
基于Google App Engine 的Adsense投放监控系统
基于Google App Engine 的Adsense投放监控系统 题外话,如果让我选择我最讨厌的一种计算机程序语言,排名第一的是Python。原因只有一个,这种靠缩进来区分块block的语法格式太折磨人了。所以2年前决定学动态语言的时候,我选择了Ruby,当然还有Rails。 但是Google App Engine选择了Python ,没办法,我只好将就这原创 2008-06-30 18:33:00 · 10992 阅读 · 0 评论 -
Hadoop Hbase适合存储哪类数据?
Hadoop Hbase适合存储哪类数据? 最适合使用Hbase存储的数据是非常稀疏的数据(非结构化或者半结构化的数据)。Hbase之所以擅长存储这类数据,是因为Hbase是column-oriented列导向的存储机制,而我们熟知的RDBMS都是row- oriented行导向的存储机制(郁闷的是我看过N本关于关系数据库的介绍从来没有提到过row- oriented行导向存储原创 2008-04-27 22:37:00 · 8365 阅读 · 3 评论 -
[数据统计]百度在调低索引库的容量
[数据统计]:百度在调低索引库的容量宇宙在膨胀,搜索引擎索引库也是---题记如何监测搜索引擎索引库的膨胀率是我最近关心的一个问题。随着网络的深入应用,越来越多的资料被放到了网络上;搜索引擎会对公开的资料加以收录,建立索引并服务于广大的网民。对于搜索引擎来说,如何达到搜全,搜新,有用,准确的要求,在数据爆炸的时代不能不说是一个严峻的挑战。据悉 百度在07年第一季度斥资 1.5亿打造数原创 2007-04-30 16:23:00 · 4232 阅读 · 0 评论 -
协同推荐系统简介
协同推荐系统简介 最近几年搜索引擎理念可谓渗入人心,对于互联网产品设计人员来说,张口必言搜索。同事基于搜索技术的各种产品也在Web2.0的浪潮下如雨后春笋,刷刷往 外冒。在这些林林总总的产品里面,几乎都能见到“ tag , 相关新闻, 相似产品 ” 类推荐链接的踪影。稍加留意这些产品的实现就可以发现,大多还是基于关键词的搜索机制实现的。很显然基于关键词技术的相关推荐是最直观的,似乎也是最有效原创 2007-07-24 23:39:00 · 6010 阅读 · 1 评论 -
国外房地产搜索引擎简介之二
国外房地产搜索引擎简介之二房地产行业的火爆带动了周边行业的快速发展,服务于房地产行业的网站也不例外。这个现象不只是在中国,大洋彼岸的美国也是如此。The National Association of Realtors (NAR) 报告说,潜在的房地产买家使用互联网做为寻找房产信息的渠道从95年的2%增长到了今年的77%。同样comScore的报告,美国房地产网站的流量原创 2006-09-02 13:20:00 · 3438 阅读 · 0 评论 -
什么是垂直搜索引擎(之二)
什么是垂直搜索引擎(之二) 垂直搜索引擎的三个特点:1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点: 比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等; 股票搜索引擎 www.mac原创 2005-08-27 19:18:00 · 3266 阅读 · 0 评论 -
nutch 0.7 plug-ins 详解
nutch 0.7 plug-ins 详解最近桂林在关注nutch的进展状况,这里有几个重要的消息要和大家分享:1、nutch 0.7 发布了;2、nutch 的java源代码包路径改变成了org.apache...3、yahoo也使用了nutch,并做了很多的工作。1 2clustering-carrot2 : 一个搜索结果类聚的代码框架,目前和Egothor等搜 索引擎原创 2005-08-24 17:10:00 · 3014 阅读 · 0 评论 -
我对垂直搜索引擎的几点认识
据说垂直搜索现在很热,那么什么是垂直搜索呢,下面是我的几点认识,欢迎大家讨论。 1、垂直搜索引擎不是什么? 垂直搜索不只是类google的行业通用搜索。以房产行业为例,如果我们按照google抓取网页的方式,来建造一个房产行业google的做法,是行不通的。技术壁垒不用解释,就算我们借助nutch,lucene等搜索技术来做,我们也无法提供差异化的服务,而没有差异化的原创 2005-08-22 11:20:00 · 7011 阅读 · 0 评论 -
发布:CtrlC源代码搜索引擎
CtrlC源代码搜索引擎 是我学习 搜索引擎 的一个试验田,我会把我最新的idea拿出来和大家分享。正如 多么乐 网站建立的初衷一样,有趣的功能是多么乐追求的目标。 看看我的宣传口号吧: 文人说:天下文章一大抄,看你会抄不会抄; 程序员说:天下代码Ctrl+C,Ctrl+V,看你会不会:Ctrl+C; 我要说:要Ctrl+C,就从CtrlC源代码搜索引擎开始吧。 目前只支持 java和c# 代原创 2005-03-21 10:46:00 · 2853 阅读 · 0 评论 -
MapReduce:Google的人间大炮
网络上关于MapReduce的介绍,最权威的就是 Jeffrey Dean 和 Sanjay Ghemawat 的那篇:MapReduce: Simpli ed Data Processing on Large Clusters您可以到 labs.google.com 上下载该文。 对goole这样需要分析处理海量数据的公司来说,普通的编程方法已经不够用了。于是 google开发了MapR原创 2005-03-17 23:08:00 · 2727 阅读 · 0 评论 -
实现文本自动分类的基础----Term频率计算方法
实现文本自动分类的基础----Term频率计算方法 据说如今互联网上的文档每天以100万的数量增长,这么大的增长量使得Google可能需要1个月甚至更长的时间才能光顾你的网站一次。所以如果你今天对你的网页做了优化,那么1个月后在看Google的反应吧。这真是信息爆炸的年代。互联网刚诞生的时候,通过目录导航机制,我们就能找到所需要的信息,Yahoo抓住这个机会成功了;后来随着互联网的普及原创 2005-01-26 23:05:00 · 4045 阅读 · 3 评论 -
通过分析html格式确定网页主体内容的想法
通过分析html格式确定网页主体内容的想法 做Web编程有时候需要了解html文件的大小,组成等信息,为以后的各种处理做准备。比如通过crawler抓取网页对网页内容自动分类的时候,最好能提取网页中的主要信息,过滤掉页头,页角的非主体信息;还有比较2个网页内容相关性的时候也需要类似的技术。最简单的还有:分析一个网页中使用IFrame的个数,内外链接个数比例等都需要对Html文件格式做分析原创 2005-01-23 22:05:00 · 3620 阅读 · 6 评论 -
一种面向搜索引擎的中文切分词方法
一种面向搜索引擎的中文切分词方法 首先说一下搜索引擎切分词的产生的原因。 在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法不同的话也不能正确检索。 文字的分割方法主要有两种,分别是 词语解析索引 和 文字索引 。原创 2005-01-08 11:51:00 · 11918 阅读 · 5 评论 -
计算所汉语词法分析系统ICTCLAS 字典格式解析(字典格式说明)
在 计算所汉语词法分析系统ICTCLAS 字典格式解析 一文中简单介绍了一下 ICTCLAS 。本来是要把字典格式一并写上去,无奈不知道怎么描述这个格式,现在终于写出了第一个Java版本的代码,也理清了思路。这个文件格式可以这样来描述: 先用文字描述一下: ictclas的字典文件由结构相同的Segment组成(比如:英文字典可以按照词语的首字母分为26个Segment原创 2005-01-03 12:32:00 · 4475 阅读 · 1 评论 -
关于lucene发展和多语言实现的方向
关于lucene发展和多语言实现的方向 多语言lucene的发展无疑是基于java lucene的。一切的功能特性和兼容性的问题都要以java lucene为主。java lucene是其他语言lucene发展的鼻祖。那么多语言lucene的发展应该怎么办呢?看看下面的文字吧:There is a concerted effort to develop a SWIG Lu原创 2005-04-21 09:04:00 · 2100 阅读 · 0 评论 -
google排名影响因素大全(beta1)
google排名影响因素大全(beta1) 最近在做多么乐索引量统计的时候感觉到google索引情况的一些变化,于是根据相关文章整理了影响google排名的多个因素。我们可以看到影响排名的因素越来越多,当网站设计者了解这些因素后,保守估计3-5年,SEO这个行业预计将会消失! 影响排名的因素如下:域名因素: 1、域名注册时间的长短,老域名的权重比新域名的原创 2005-05-16 06:28:00 · 2706 阅读 · 0 评论 -
国外房地产搜索引擎简评之一
国外房地产搜索引擎简评之一 师夷长技以致夷 题记把在线地图、卫星鸟瞰图和房地产行业结合会是一番什么景像? 让我们看看国外同行的做法吧。 HousingMaps把鸟瞰图和当地房地产数据相结合显示,效果非常吸引人,而且是免费的服务。这家公司同时向个人用户和商业用户提供卫星地图和鸟瞰图。他另一向别具特色的服务是Property Analyst ,主要为专业人士提原创 2006-08-25 17:28:00 · 6142 阅读 · 7 评论 -
如何判断一个网页是不是一个Blog的首页?
如何判断一个网页是不是一个Blog的首页? 最近碰到一个问题,如何从一组链接中,判断链接是不是Blog的首页链接? 先从 Blog 存放的地点说起:1、由BSP托管的Blog,一般采用开源或者BSP独立开发的Blog系统;2、由个人空间存放的Blog,一般采用开源的Blog系统。而个人空间存放的Blog大都是 比较职业的 价值比较高的Blogger。 对于第一类,原创 2006-03-05 23:56:00 · 5147 阅读 · 0 评论 -
Lucene 1.9 改进特性列表
Lucene 1.9 改进特性列表 1.9 RC1 注:lucene2.0发布版本并不是100%的和1.4.3版兼容。也就是说在你用2.0版本的Lucene开发包替换原来的1.4.3版本时,应该让你的应用程序首先和1.9的兼容。 使用前提: 1. 编译和使用Lucene需要 Java1.4 或以上版本。 Lucene 1.9 在运行时的变化:翻译 2006-02-28 22:27:00 · 6550 阅读 · 0 评论 -
网页切片算法的若干问题
这是我研究网页切片算法的一个汇总想法。 之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示 ,随着工作的深入,逐渐碰到以下问题: 网页切片的粒度问题: 网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。 网页切片的网页对象: 互连网纱功能的网页原创 2006-04-01 21:03:00 · 7132 阅读 · 7 评论 -
从 http://www.batteries.com 搜索引擎优化效果谈起
从 http://www.batteries.com 搜索引擎优化效果谈起 Batteries.com网站优化的经验和教训 是胡菜菜 胡宝介 最新的一篇文章,估计是这是他们的一个外国客户。国内做搜索引擎优化的公司能得到国际客户订单不容易。先祝贺他们。Zunch 已经进入中国了,ses 最近也大力作宣传,希望这个行业能进入良性发展。 为了学习他原创 2006-02-17 00:25:00 · 3824 阅读 · 0 评论 -
介绍 Nutch 第一部分:抓取过程详解(翻译2)
介绍 Nutch 第一部分:抓取过程详解(2) 通过上文现在我们有了一些基本的概念了,现在应该接触实际的操作了,因为懂得原理和实践还是有很大差距的。 抓取是一个循环的过程:抓取蜘蛛从WebDB中生成了一个 fetchlist 集合;抽取工具根据fetchlist从网络上下载网页内容;蜘蛛程序根据抽取工具发现的新链接更新WebDB;然后再生成新的fetchlist;周而复始。(注翻译 2006-01-16 21:04:00 · 6738 阅读 · 3 评论 -
中文分词和二元分词综合对比
中文分词和二元分词综合对比 为了测试中文分词和二元分词的差异,现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。 采用中文分词每1M产生1.55M的索引文件,膨胀率1.55;每1M用时大约10秒;采用二元分词每1M产生2.21M的索引文件,膨胀率2.21;每1M用时大约7秒;原创 2005-06-17 13:12:00 · 6609 阅读 · 0 评论 -
Lucene和 搜索结果聚集
Lucene和 搜索结果聚集 在 msn 的 sandbox 项目中有一个中国微软研究院开发的 搜索结果聚集 的项目。 搜索结果聚集 是基于这样的理念:用户在使用搜索引擎查询时,往往只提供最关心的关键字给搜索引擎,搜索引擎则机械的返回成千上百个“相关”结果,在这种信息的海洋中,用户往往不能有效的找到他需要的信息,搜索结果聚集就是按照信息本身的属性对搜索结果进行分类,呈现给用户分类后的结果原创 2005-06-12 15:25:00 · 2205 阅读 · 0 评论 -
一种快速的未登陆词识别方法(原理和实现)
一种快速的未登陆词识别方法(原理和实现) 最近网络上关于分词的算法已经很多了,在实际应用中每个人根据对分词的不同理解写了不同的中文分词算法,可谓百花齐放. 但现在似乎还没有针对未登陆词的识别算法,有鉴于此,我特地写了一个,抛砖引玉. 算法的假设: 1. 未登陆词是由单字组成的; 2. 如果一个字同时属于2个未登陆词,那么只选择第一被识别的词; 测试文原创 2005-10-12 15:58:00 · 4968 阅读 · 0 评论 -
计算所汉语词法分析系统ICTCLAS 字典格式解析
计算所汉语词法分析系统ICTCLAS 字典格式解析 这段时间小叮咚分词模块基本上没有什么大更新了,不是不想更新,而是感觉好像碰到了天花板,不知道该如何进一步拓展分词的功能了。当然分词不是目的,只是为了让小叮咚理解自然语言的一步必须的中间环节。我对小叮咚的定位是一个智能知识问答系统。这样让小叮咚理解用户输入的内容是最基础也最关键的一步。我们学习一门语言,首先要了解句子的构成,句子的成份,原创 2004-12-23 23:19:00 · 8743 阅读 · 65 评论