ChinaUnix博客搬家测试账号

26800897--张俊林

搜索引擎重复网页发现技术分析

一. 介绍 统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Posts...

2018-04-17 14:30:52

阅读数:12

评论数:0

未来的电视是什么样子?

未来的电视是什么样子? 假设现在是2030年,那么此时的电视是什么样子呢? 电视的外观:1.两级分化未来的电视外观将走向两个极端:一个极端是越来越大。这个是很容易看到的趋势,现有电视也是遵循这这个思路在发展。一个极端是越来越小。未来电视的另外一种外表可能是一副眼镜,你带上它就可...

2018-04-17 14:30:36

阅读数:18

评论数:0

英雄的悲哀

 英雄的悲哀 张俊林 timestamp:2006/10/2 不是英雄不读三国 若是英雄怎么能不懂寂寞 独自走下长板坡,月光太温柔 曹操不罗嗦,一心要那荆州 用阴谋 阳谋 明说 暗夺,淡薄 东汉末年分三国,烽火连天不休 儿女情长被乱世左右,谁来煮酒 尔...

2018-04-17 14:29:48

阅读数:14

评论数:0

语言和音乐

我发现语言天赋和音乐天赋有着很密切的正相关关系。往往音乐天赋好的语言天赋也很好。语言天赋好的音乐天赋也不会差。所以判断一个人能否学好英文的标准是看这个人唱歌如何,如果一个唱歌很好很有乐感的人是比较容易学的地道的英文发音的。而没有音乐天赋的人在英文口语方面不会很好。因为学外语句子发音...

2018-04-17 14:29:47

阅读数:13

评论数:0

搜索引擎索引之索引基础

本文节选自《这就是搜索引擎:核心技术详解》第三章 本节通过引入简单实例,介绍与搜索引擎索引有关的一些基础概念,了解这些基础概念对于后续深入了解索引的工作机制非常重要。 3.1.1单词—文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展...

2018-04-17 14:29:36

阅读数:86

评论数:0

索引擎设计实用教程(3)-以百度为例

上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误. 那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将&qu...

2018-04-17 14:29:16

阅读数:19

评论数:0

Google怎么做(1.相关提示)

在我以前发的帖子里面讲过百度的相关提示功能是如何实现的,下面说说GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)的相关提示如何实现的,你使用两个搜索引擎并观察一下两个系统的相关提示就会发现,GOOGLE的技术含...

2018-04-17 14:28:36

阅读数:15

评论数:0

从选秀策略看市场测试

 从选秀策略看市场测试 CopyMiddle:张俊林 Timestamp:2007年8月 最近两年电视选秀节目成为了游荡在中国上空的幽灵,而把这个幽灵放出来的正是家住湖南的芒果台。其实这类节目的火爆也是顺理成章的,打个比方来说:选秀节目就是做给电视观众的一盘菜,一大批...

2018-04-17 14:27:46

阅读数:9

评论数:0

orion算法被解密了

刚刚给阿龙打过电话,阿龙把arrion算法的大致思想向我汇报了一下,至于有些技术细节没说,有时间我在琢磨琢磨。 前面我写的分析文章,现在看来多少有点问题,至于是什么问题就不细说了,看来阿龙的这个思路确实是跟主流搜索引擎研究思路有很大的区别,我听了以后有点茅塞顿开的感觉,至于是怎么...

2018-04-17 14:26:41

阅读数:11

评论数:0

google怎么做(3.搜索结果重排序)

中科院软件所 张俊林 TIMESTAMP:2006年5月19日 GOOGLE在用户初次检索结果基础上又利用链接关系进行了重排序,期望能够使得排序结果与用户查询更加相关,其算法如下: (1) 首先根据用户查询得到初步检索结果,从初次检索结果里面选择前列K个页面构成重新排...

2018-04-17 14:26:41

阅读数:22

评论数:0

搜索引擎设计实用教程(5)-以百度为例

    Cache是目前实用的搜索引擎都必备的功能,因为研究表明用户的查询有相当比例(30%-40%)是重复的,而且大多数重复的用户查询会在较短的间隔时间被再次重复访问.比如说目前"芙蓉姐姐"成为街头巷议的美谈,那么不仅张三想搜索&quo...

2018-04-17 14:26:11

阅读数:7

评论数:0

C#学习笔记

1. 重点放在c#和c 不同的地方,比如接口,代理,对象索引,事件,sealed等 2. 事件(EVENT)是一个很好的概念。它将传统IDE里面事件驱动程序的思想加入到语言层面支持上来。结合delegate将对象相应的事件和事件处理代码绑定。 3. c#为什...

2018-04-17 14:25:26

阅读数:5

评论数:0

搜索2.0:利用用户点击记录改善搜索结果

现在是WEB2.0时代了(据真实传言好像已经快4.0了,比微软升级还快,我估计年底前会出现web5.0的说法,大家赶紧想想应该是什么,争取第一个提出这个概念,为中国争光),大家都在讲UGC(用户产生内容。My definition of UGC2.0:Used Garbage Con...

2018-04-16 18:46:13

阅读数:16

评论数:0

IT创业模式分析

IT创业模式分析 author:malefactor time: 2003年11月 模式一:要有超乎常人的技术发展和市场需求的洞察力。 支持案例:几乎所有大的成功IT企业必备的成功要素。 模式二:在产品推广初期,不要太在意盈利问题,新开拓的市场的培育和市场分额的大面积占领才是最...

2018-04-16 18:46:12

阅读数:17

评论数:0

视频搜索时代到来了吗?[翻译]

    尽管很令人伤感但是这是真实的--我们可以通过衡量某个市场的可被操纵程度来评估任何市场的成熟程度. 根据这一衡量标准,从华尔街周刊的"作弊手段正在侵蚀视频站点并误导用户"一文可以推断: 视频搜索时代已经到来.      华尔街周刊发现,许多...

2018-04-16 18:45:25

阅读数:17

评论数:0

Orion算法:GOOGLE干掉百度的核武器?

怎么样?这篇文章的标题够气派吧?说实话,我写完了看着也吓了一跳,我问自己:这题目真是你自己起的么?神来执笔啊!!估计李白喝5斤牛栏山二锅头也不过这样吧.我也承认题目起得有点吓人,其实我的根本目的是啥呢,就是用这么个标题来炒做一下,增加点浏览量,实际我的blog浏览量已经很高了,不信我...

2018-04-16 18:45:13

阅读数:26

评论数:0

博客搜索引擎索引博文数量分析与评估

 我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。 比如中国的博客总数有多少,比如博客中的色情狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。 调查目的:目前各个博...

2018-04-16 18:45:12

阅读数:8

评论数:0

搜索引擎anti-spam系统设计指南

一. 设计原则与整体体系结构 1.1 设计原则 搜索引擎ANTI-SPAM作为一个新型的技术领域,目前逐渐引起学术届和搜索引擎市场的逐步重视.通过大量资料分析,我认为一个好的实用ANTI-SPAM系统应该遵循以下两个设计原则: 原则1.实用的搜索引擎ANTI-SPAM系统应该允许核心...

2018-04-16 18:45:11

阅读数:8

评论数:0

模式的分类

1.按照抽象级别可以分为: (a)分析模式:早期需求分析分析阶段的一些模式。 (b)体系结构模式:设计阶段可复用设计经验。往往重点放在软件整体结构方面。 (c)设计模式:设计阶段可复用的模式。往往重点放在整体结构中的子结构。 (d)惯用法:编程阶段的一些经验,往往和编程语言相关。 2...

2018-04-16 18:43:08

阅读数:9

评论数:0

voting设计模式

Voting 模式 1.语境:这个设计模式是从多人投票的模型中抽象出来的,其中参与者voter是一个个投票者,每个投票者都维护一个状态COUNT,VOTE()操作可以改变COUNT的状态,COUNTER是计票器,每个投票者可以通过ATTACH()和DETACH()操作与CO...

2018-04-16 18:43:07

阅读数:12

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭