搜索引擎
文章平均质量分 82
wx红杉树
花开两朵,各表一枝(公有云和私有云)。凭借领先的技术和产品,对行业的深刻理解,先进的服务理念和能力,通过开放、灵活的产业合作,秉承领先驱动云化的使命,持续研发适合中国国情的云计算系统。
展开
-
google,百度,yahoo搜索比较
最近专注于搜索网站的分析,今天早上写了一篇:计算机面试笔试题——如何找到最合适的女朋友, 刚才一时好奇,用各大搜索引擎搜了一下:计算机面试笔试题,结果百度对中文新文反应最快。 在百度中,我得文章排在第5,前面四篇中有3篇来自blog,说明百度在中文搜索方面确实很强。如果搜索:计算机面试笔试题——如何找到最合适的女朋友,则百度将我得文章排在第1,不由得对百度的技术有了进一步的认识。百度,好样的原创 2007-09-20 09:25:00 · 1536 阅读 · 0 评论 -
搜索引擎的基本原理及数据结构剖析
一个搜索引擎程序主要由搜索器(Crawler)、索引器(Indexer).检索器(Searcher)和用户接口(Ul:User Interface)等四个部分组成,主要存储设备由页面存储器(Repository)和存储桶(Barrel)两部分组成。搜索器(C rawler),本质上是一种计算机爬虫(Spider)程序,它时刻不停地n动,从Internet上不断抓取各种Web网页信息,再将页面原转载 2007-10-11 10:10:00 · 1524 阅读 · 0 评论 -
编写简单的中文分词程序
几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、词库词库大概有5万多词语(Google能搜到,类似的词库都能用),我摘要如下:地区 82重要 81新华社 80技术 80会议 80自己 79干部 78职工 78群众 77没有原创 2007-10-11 18:25:00 · 728 阅读 · 0 评论 -
关注"垂直搜索",低技术含量的伪概念?
中国谷歌模仿酷讯推出生活搜索,一度吸引了媒体和用户对于所谓“垂直搜索”的关注。有观者认为,在百度、中国谷歌和雅虎通吃将近九成的网络搜索份额之后,搜索市场的迟到者或许可以在“垂直搜索”中分到一杯羹。 然而,由于定义的模糊,垂直搜索在不同人那里指称着不同的事物,许多搜索行业的外行,甚至可以向风险资本家冒充自己搞的是“垂直搜索”,和百度不是一路,但“钱景”十分光明。 笔者认为,除了目前搜索原创 2007-10-30 10:37:00 · 776 阅读 · 0 评论 -
Google的搜索算法将做出重大改进
昨日,纽约时报的一篇关于Google的报道在新闻界引起了相当大的震撼,各家网站纷纷转载或者进行扩展评论。 Google正在不断改进它的搜索算法,这将是Yahoo和微软噩梦。过去,Google的搜索结果排名是注重网站的受欢迎程度,这对于大网站非常有利。未来甚至现在已经开始,Google的搜索结果排名将更注重时效性,即如果你发布的新闻最早的话,尽管你的网站流量很小,但也会排在搜索结果的前面,这原创 2007-10-30 10:38:00 · 662 阅读 · 0 评论 -
泰然处之,网络爬虫程序实例
泰然处之,网络爬虫程序实例 最近跟朋友开始研究搜索引擎的实现,下面是朋友参照jobo改的一个给予java的spiderps:里面的英文可以略过了,这家伙英语水平实在是烂= = Sosoo 1.0网络爬虫程序---用户开发手册编写人:王建华(rimen/jerry)编写目的:基于sosoo定制web spider程序的编程人员。转载 2007-10-16 11:37:00 · 769 阅读 · 0 评论 -
使 Web 爬虫程序能高效地搜索您的门户站点和 Web 站点
Web 站点管理员、搜索技术供应商都面临着寻找或帮助定位高质量信息的挑战。使用新兴的 Sitemaps 0.9 协议,Web 站点管理员通过以更理想的方式向爬虫程序提供关于其站点的信息,从而能够战胜这种挑战。使用这项协议可以指定要爬行的精确内容,更新信息的频率和特定站点的重要性。 本文对 Sitemaps 0.90 协议做了简要的概述,还介绍了如何使用 IBM® WebSphere® Porta转载 2007-10-17 15:46:00 · 848 阅读 · 0 评论 -
中文搜索引擎技术揭密:网络蜘蛛
关键词:中文搜索引擎技术揭密 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找原创 2008-01-22 17:52:00 · 968 阅读 · 0 评论 -
从Google取消高额下线分成制度看08网赚前景
→申请Google AdSense用网站或博客赚美元的详细步骤(附图)! 可联系QQ:9272045帮忙 一打开站长网就发现,Google的下线提成制度即将被取消,以前只要你的下线做到了100美元并成功支付,上线就可以拿到高达250美元的提成费用,这样的一种措施,被认为是Google广告中最有利润的一种渠道。 而这次Google取消这样的制度,不仅仅是在中国地区,在一月底开始只保存在北美、拉丁美原创 2008-01-22 18:01:00 · 857 阅读 · 0 评论 -
Google 技术——PageRank 技术和超文本匹配分析
Google 技术 Google 秉持着开发“完美的搜索引擎”的信念,在业界独树一帜。所谓完美的搜索引擎,就如公司创始人之一 Larry Page 所定义的那样,可以“确解用户之意,切返用户之需”。为了实现这一目标,Google 坚持不懈地追求创新,而不受现有模型的限制。因此,Google 开发了自己的服务基础结构和具有突破性的 PageRank™原创 2008-01-22 16:40:00 · 1517 阅读 · 0 评论 -
中国电信屏蔽Google背后的秘密
中国电信最近对于Google若干服务(Google工具栏、Google拼音、Google Picasa等)的屏蔽是一个很特别的屏蔽,因为这些服务本身并没有任何违反中国法律的地方,是一个很正规的中文网络服务网站,但是奇怪的是为什么中国电信要对Google的这些服务进行屏蔽呢?我这里对中国电信的这个反常的举动进行了一些猜测和分析,供大家参考。 屏蔽Google的真相 世界上没有无缘无故的恨,中国原创 2008-01-22 17:58:00 · 1540 阅读 · 0 评论 -
搜索引擎中网络爬虫的设计分析::[Source]
多次被人问到这个问题,看来需要做一点说明,这里简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?1】 网络爬虫高度可配置性。2】 网络爬虫可以解析抓到的网页里的链接3】 网络爬虫有简单的存储配置4】 网络爬虫拥有智能的根据网页更新分析功能5】原创 2008-01-22 16:53:00 · 785 阅读 · 0 评论 -
Google AdSense广告赚钱之技巧篇!
Google AdSense广告赚钱攻略在做Google Adsense之前只给大家提醒一点就是:“绝对不要作弊,Google永远比你聪明”。目前我做Google每个月大概收入稳定在500美金左右,其实我做的时间不长,从今年2007年3月才开始做的。为什么能上升这么快,我的经验就是多听多看多交流,再加上自己的努力和创意。我目前是兼职在做网赚,每天花了2-3个小时做Google,因为我还要负原创 2008-01-22 17:02:00 · 3838 阅读 · 1 评论 -
google搜索原理论文
这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000‘000个网页。我们可以从http://google.stanford.edu/ 下载。 设计搜索引擎是一项富转载 2007-10-08 09:50:00 · 774 阅读 · 0 评论 -
控制搜索引擎访问和索引你的网站
我 经常被问到 Google(谷歌)和搜索引擎是怎样运转的。一个核心问题是:谷歌是怎样知道一个网站的哪些部分是网站所有者想让它们显示在搜索结果中?网站内容发布者 能够指定部分网站不被搜索吗?好消息是,网站内容发布者可以使用很多方法控制你们的网页在搜索结果中的显示。文件 robots.txt 是这里的主角,该文件已经成为业界标准好多年了。它让一个网站所有者控制搜索引擎访问他们的网站。你可以用 rob转载 2007-10-08 09:41:00 · 755 阅读 · 0 评论 -
垂直搜索引擎深度分析
1.何为垂直搜索引擎所谓垂直搜索引擎(Vertical Search Engine),是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。从竞争的角度来讲,垂直搜索引擎要做通用搜原创 2007-09-20 09:35:00 · 1160 阅读 · 0 评论 -
百度校园招聘和百度笔试
昨天一个朋友参加了百度校园招聘在人文馆的宣讲首先是18:30“梦想与激情--百度董事长兼CEO李彦宏与武大学子共话青年创业”以前在互联网上看过很多robin有关的报道,也看过他的一些电视采访,上过他的空间今天是见着真人了,小伙有点黑,不过确实帅,一进人文馆,跟周杰伦似的,引得一堆女生尖叫。还有他竟然成了武大信息管理学院一个专业的受聘教授。。。真是无语robin回忆了他在北大大学、以及在美国的几年给原创 2007-09-20 09:58:00 · 4393 阅读 · 0 评论 -
机器人的meta标记
原文地址:http://javascriptkit.com/howto/robots2.shtml如果你的网站供应商禁止你上传robots.txt文件到根目录,或者你仅仅是希望部分定制搜索爬虫对于你网站上的一些页面的动作,有一个可以代替robot.txt的方法,那就是使用robots的meta标签。创建你的机器人meta标志其实,机器人的meta标志和其他的meta标志没有什么两样,一定是添加在你翻译 2007-09-20 11:22:00 · 793 阅读 · 0 评论 -
搜索引擎基本工作原理
■ 全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它翻译 2007-09-21 15:55:00 · 1000 阅读 · 0 评论 -
搜索引擎复制网页的算法和重复网页发现技术分析
搜索引擎复制网页的算法春节这几天,看了一些搜索引擎基本原理的书,下面把了解到关于复制网页的算法写下来。关键词:搜索引擎,复制网页,算法,信息指纹,Fingerprint,关键词搜索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。很多搜索引擎判断内容复制转载 2007-09-25 09:54:00 · 1143 阅读 · 0 评论 -
[SEO]google算法更改导致的博客收录下降
最近一周博客访问量降低,查看用户访问统计发现博客从Google来的访问量比先前少了将近80%。到Google去查收录情况,51cto博客的收录从先前的40万几天内降低到10几万,并且还有降低的趋势,并且发现在blog新发的文章都没有被Google收录,而且一些老文章在Google的收录还在每日减少。由于之前这一个月之内,并未对博客的页面或是链接做任何改动,所以很奇怪为何会出现此种症状,怀疑是Goo转载 2007-09-20 10:41:00 · 1072 阅读 · 0 评论 -
搜索引擎学习资源收集
一、搜索引擎技术/动态资源、综合类1、卢亮的搜索引擎研究 http://www.wespoke.com/卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。2、laolublog 有不少来自国外的关于搜索引擎方面的资料,偏重于转载 2007-09-21 13:40:00 · 7987 阅读 · 0 评论 -
中文搜索引擎技术:网络蜘蛛
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象…… 而作为一个网站的经营者,其更关心的或许是如翻译 2007-09-21 15:18:00 · 827 阅读 · 0 评论 -
robots.txt 指南--介绍
原文:http://javascriptkit.com/howto/robots.shtml译者:Tony Qu,BluePrint翻译团队 有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人。每天,上百个这样的爬虫会出来对网站进行快速的搜索。不管是不是google打算对整个网络进行索翻译 2007-09-20 11:25:00 · 552 阅读 · 0 评论 -
搜索引擎技术资源篇
搜索引擎的门槛主要是技术门槛,包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等,这些都是搜索引擎的门槛。 搜索引擎的策略都是采用服务器群集和分布式计算技术。 if (window.showTocToggle) { var tocShowText = "显示"; var tocHideText = "隐藏原创 2007-09-21 13:34:00 · 1308 阅读 · 0 评论 -
游戏编程中的人工智能技术--神经网络
游戏编程中的人工智能技术.神经网络入门>. (连载之一)用平常语言介绍神经网络(Neural Networks in Plain English) 因为我们没有很好了解大脑,我们经常试图用最新的技术作为一种模型来解释它。在我童年的时候,我们都坚信大脑是一部电话交换机原创 2007-09-25 09:58:00 · 9415 阅读 · 3 评论 -
统计Google广告点击次数的方法
象Google的广告,展示啥内容,都是由Google自己控制的,使用普通的页面提交连接的方式,我们是无法统计我们页面上的Google广告被点击了多少次,被谁点击了。因为这些页面都不受我们控制。下面介绍一个可以统计Google那样广告点击次数的方法。<!--Code highlighting produced by Actipro CodeHighlighter (freewar原创 2007-10-06 14:31:00 · 1036 阅读 · 0 评论 -
搜索引擎技术资源篇
搜索引擎的策略都是采用服务器群集和分布式计算技术。(搜索引擎技术资源篇-1) 经典文章: google早期论文 The Anatomy of a Large-Scale Hypertextual Web Search Engine if (window.showTocToggle) { var tocShowText = "显示"; var tocHideText = "隐藏"; s原创 2008-01-22 17:48:00 · 1042 阅读 · 0 评论