搜索引擎
文章平均质量分 72
张俊林博客
中科院软件所博士学位,研究领域:搜索引擎,自然语言处理,社交挖掘,推荐系统与机器学习。现在从事相关的开发与研究。
展开
-
搜索引擎web spam类型及防治策略(version 0.9)
/*版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明 .*/ 搜索引擎web spam类型及防治策略(version 0.9) 中科院软件所 张俊林 url:http://sonata.iscas.ac.cn/zhjl 2005年7月 搜索引擎的目的是发现和用户查询”相关”而且”重要”的页面.一般来说网页是否和用户查询相关是根据内容判断的,而重要性是根据链接原创 2005-07-27 09:23:00 · 4976 阅读 · 1 评论 -
搜索2.0:利用用户点击记录改善搜索结果
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 搜索2.0:利用用户点击记录改善搜索结果 Author:张俊林 timestamp:2007年7月 现在是WEB2.0时代了(据真实传言好像已经快4.0了,比微软升级原创 2007-07-24 21:19:00 · 6290 阅读 · 2 评论 -
视频搜索时代到来了吗?[翻译]
视频搜索时代到来了吗? translator:张俊林 timestamp:2007/4 尽管很令人伤感但是这是真实的--我们可以通过衡量某个市场的可被操纵程度来评估任何市场的成熟程度. 根据这一衡量标准,从华尔街周刊的"作弊手段正在侵蚀视频站点并误导用户"一文可以推断: 视频搜索时代已经到来翻译 2007-04-22 14:59:00 · 4039 阅读 · 1 评论 -
Google小组研发模式分析
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ Google小组研发模式分析 author:张俊林 timestamp原创 2007-04-30 13:45:00 · 13981 阅读 · 5 评论 -
百度新闻后台逻辑流程分析
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 百度新闻后台逻辑流程分析 CopyMiddle:张俊林 TimeStamp:2008年1月9日 今天分析了一下百度新闻,琢磨了一下其后台运行机制,出乎意料的是,我发现其运行机制比我想象的要简单,我原先没仔细原创 2008-01-09 18:53:00 · 12067 阅读 · 5 评论 -
大话SALSA算法
本文节选自《这就是搜索引擎:核心技术详解》第六章 SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”,这是SALSA算法提出的背景。由此可见,SALSA算法融合了PageRank和HITS算法的基本思想,从实际效果来说,很多实验数据表明,SALSA的搜索效果也都原创 2011-12-21 21:33:36 · 8621 阅读 · 2 评论 -
大话主题敏感PageRank
本文节选自《这就是搜索引擎:核心技术详解》第六章 主题敏感PageRank是PageRank算法的改进版本,该算法已被Google使用在个性化搜索服务中。6.6.1 主题敏感PageRank与PageRank的差异 PageRank算法基本遵循前面章节提到的“随机游走模型”,即用户在浏览某个网页时,如果希望跳转到其它页面,则随机选择本网页包含的某个链接,原创 2012-01-10 22:04:26 · 8201 阅读 · 1 评论 -
搜索引擎链接算法之:HITS算法解析
本文节选自《这就是搜索引擎:核心技术详解》第六章 HITS算法也是链接分析中非常基础且重要的算法,目前已被Teoma搜索引擎(www.teoma.com)作为链接分析算法在实际中使用。6.4.1 Hub页面与Authority页面 Hub页面和Authority页面是HITS算法最基本的两个定义。所谓“Authority”页面,是指与某个领域或者某个原创 2012-02-06 21:25:00 · 16838 阅读 · 2 评论 -
搜索引擎索引之索引基础
本文节选自《这就是搜索引擎:核心技术详解》第三章 本节通过引入简单实例,介绍与搜索引擎索引有关的一些基础概念,了解这些基础概念对于后续深入了解索引的工作机制非常重要。 3.1.1单词—文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。原创 2012-02-13 22:00:10 · 16529 阅读 · 8 评论 -
搜索引擎索引之如何建立索引
本文节选自《这就是搜索引擎:核心技术详解》第三章3.4建立索引 正如前述章节所述,索引结构如果建立好了,可以增加搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,本节叙述比较实用的三种建立索引的方法。 3.4.1两遍文档遍历法(2-Pass In-Memory Inversion) 顾名思义,此种方法需要对文档原创 2012-02-27 21:27:52 · 29446 阅读 · 7 评论 -
搜索引擎反作弊之内容作弊
本文节选自《这就是搜索引擎:核心技术详解》第八章 网页反作弊是目前所有商业搜索引擎需要解决的重要难点,出于商业利益驱使,很多网站站长会针对搜索引擎排名进行分析,并采取一些手段来提高网站排名,这种行为本身无可厚非,很多优化行为是符合搜索引擎排序规则的,但是也存在一些恶意的优化行为,通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置,这样会严重影响搜索引擎用户的搜索体验原创 2012-03-24 08:53:04 · 12908 阅读 · 1 评论 -
搜索引擎反作弊之:链接作弊与隐藏作弊
本文节选自《这就是搜索引擎:核心技术详解》第八章8.2 链接作弊 所谓“链接作弊”,是网站拥有者考虑到搜索引擎排名中利用了“链接分析”技术,所以通过操纵页面之间的链接关系,或者操纵页面之间的链接锚文字,以此来增加链接排序因子的得分,并影响搜索结果排名的作弊方法。常见的链接作弊方法众多,此节简述几种比较流行的作弊方法。 1.链接农场(Link Farm) 为了原创 2012-03-27 22:48:46 · 7027 阅读 · 0 评论 -
搜索引擎反作弊之:整体技术思路
本文节选自《这就是搜索引擎:核心技术详解》第八章 如上所述,目前搜索引擎作弊手段五花八门,层出不穷,作为应对方的搜索引擎,也相应调整技术思路,不断有针对性地提出反作弊的技术方案,所以如果整理反作弊技术方案,会发现技术方法很多,理清思路不易。 尽管如此,如果对大多数反作弊技术深入分析,会发现在整体技术思路上还是有规律可循。从基本的思路角度,可以将反作弊手段大致划分为以下三种:原创 2012-03-30 22:05:19 · 12423 阅读 · 2 评论 -
搜索引擎索引之如何更新索引
本文节选自《这就是搜索引擎:核心技术详解》第三章 动态索引通过在内存中维护临时索引,可以实现对动态文档和实时搜索的支持。但是服务器内存总是有限的,随着新加入系统的文档越来越多,临时索引消耗的内存也会随之增加。当最初分配的内存将被使用完时,要考虑将临时索引的内容更新到磁盘索引中,以释放内存空间来容纳后续的新进文档,此时要考虑合理有效的索引更新策略。常用的索引更新策略有四种:完全重原创 2012-03-21 22:13:59 · 8182 阅读 · 2 评论 -
HipHop算法:利用微博互动关系挖掘社交圈
/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ CopyMiddle: 张俊林 TimeStamp:2012年3 月 在微博环境下,如何自动挖掘某个微博用户的社交圈子或者兴趣圈子是个很基础且重要的问题。如果能够对于原创 2013-06-29 10:15:42 · 11136 阅读 · 1 评论 -
使用深度RNN模型构建语义搜索引擎
本文探讨了几种使用RNN来做语义搜索的可能网络结构。原创 2016-03-14 18:49:33 · 12722 阅读 · 4 评论 -
深度学习在搜索和推荐领域的应用
/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 深度学习在搜索和推荐领域的应用 (想更系统地学习深度学习知识?请...原创 2016-07-27 20:02:02 · 51395 阅读 · 3 评论 -
博客搜索引擎索引博文数量分析与评估
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 博客搜索引擎索引博文数量分析与评估 CopyMiddle:张俊林 TimeStamp:2007/1/25 我一直希望能够通过一种手段原创 2007-01-25 16:02:00 · 3437 阅读 · 0 评论 -
搜索引擎CACHE策略研究
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 搜索引擎CACHE策略研究 张俊林 timestamp:2005年10月 一.关于搜索引擎用户查询得出的结论:(1) 用户查询有很大比例的重复性。有原创 2007-01-12 17:09:00 · 6126 阅读 · 1 评论 -
搜索引擎设计实用教程(1)-以百度为例
搜索引擎设计实用教程-以百度为例 之一:查询处理以及分词技术 中科院软件所 张俊林 2005年11月 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作原创 2005-11-22 16:26:00 · 18744 阅读 · 11 评论 -
搜索引擎设计实用教程(3)-以百度为例
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 搜索引擎设计实用教程(3)-以百度为例 之三:对百度分词算法的进一步分析原创 2005-11-27 17:50:00 · 7155 阅读 · 4 评论 -
搜索引擎设计实用教程(4)-以百度为例
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/搜索引擎设计实用教程(4)-以百度为例 之四:相关提示功能 中科院软件所 malefactor2005年11月 相关提示也是几乎所有搜索引擎提供的一个附加功能,所谓相关提示,就是对于用户提交的查询进行分析,然后根据原创 2005-11-29 16:37:00 · 8446 阅读 · 2 评论 -
搜索引擎设计实用教程(2)-以百度为例
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/搜索引擎设计实用教程(2)-以百度为例 之二:Spelling Checker拼写检查错误提示(以及拼音提示功能) 中科院软件所 张俊林 2005年11月 拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入原创 2005-11-26 15:33:00 · 8033 阅读 · 4 评论 -
搜索引擎设计实用教程(5)-以百度为例
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 搜索引擎设计实用教程(5)-以百度为例 之五:CACHE结构 中科院软件所 张俊林2006年1月4日 Cache是目前实用的搜索引擎都必备的功能,因为研究表明用户的查询有相当比例(30%-40%)是重复的,而原创 2006-01-04 14:22:00 · 4663 阅读 · 2 评论 -
百度国学搜索探密
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/百度国学搜索探密中科院软件所 张俊林(http://blog.csdn.net/malefactor) 2006年1月11日 年底写论文作实验搞得头昏脑胀,中午放松一下上网看看新闻,原来百度推出了国学搜索,平常也比较喜欢看诗词歌赋方面的东西,就上百度试了试,结果搜索结果让我感觉哪里好像不对劲,所以就稍微花点时间看看原创 2006-01-11 15:23:00 · 8558 阅读 · 4 评论 -
Google怎么做(1.相关提示)
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/GOOGLE 的相关提示功能 中科院软件所 张俊林 2006年3月 在我以前发的帖子里面讲过百度的相关提示功能是如何实现的,下面说说GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)的相关提示如何实现的,你使用两个原创 2006-03-27 17:18:00 · 4341 阅读 · 1 评论 -
google怎么做(2.相似网页算法)
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/GOOGLE 的相似网页功能算法 中科院软件所 张俊林 time stamp: 2006年4月3日 我们使用GOOGLE在检索结果列表里面每个检索结果会有”相似网页(Similar pages)”的链接,主要提供和所列出的页面相似的网页,那么这个功能是如何实现的?GOOGLE(原创 2006-04-03 10:39:00 · 4373 阅读 · 1 评论 -
Orion算法:GOOGLE干掉百度的核武器?
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ Orion算法:GOOGLE干掉百度的核武器?中科院软件所 张俊林time stamp:2006年4月12日 怎么样?这篇文章的标题够气派吧?说实话,我写完了看着也吓了一跳,我问自己:这题目真是你自己起的么?神来执笔啊!!估计李白喝5斤牛栏山二锅头也不过这样吧.我也承认题目起得有点吓人,其实我的根本原创 2006-04-12 16:08:00 · 6282 阅读 · 7 评论 -
稻谷之歌?
惊闻GOOGLE中文名称居然是谷歌(http://googlechinablog.com/2006/04/blog-post_114490277825217463.html).我估计看到这个噩耗的互联网用户有一半会当即晕倒在地,另外一半意志力比较坚强的会挺过去,顶多落下个口眼歪斜的小毛病J;当然也有奔走相告,拍手相庆的,那肯定是百度和雅虎的员工.很明显,GOOGLE中国还没出手就已经输了气势原创 2006-04-13 09:46:00 · 2748 阅读 · 1 评论 -
orion算法被解密了
刚刚给阿龙打过电话,阿龙把arrion算法的大致思想向我汇报了一下,至于有些技术细节没说,有时间我在琢磨琢磨。 前面我写的分析文章,现在看来多少有点问题,至于是什么问题就不细说了,看来阿龙的这个思路确实是跟主流搜索引擎研究思路有很大的区别,我听了以后有点茅塞顿开的感觉,至于是怎么实现的在合适的时候再说,暂时进入保密期,我看看能否有些改进的思路;原创 2006-04-15 13:21:00 · 3508 阅读 · 0 评论 -
google怎么做(3.搜索结果重排序)
中科院软件所 张俊林 TIMESTAMP:2006年5月19日GOOGLE在用户初次检索结果基础上又利用链接关系进行了重排序,期望能够使得排序结果与用户查询更加相关,其算法如下:(1) 首先根据用户查询得到初步检索结果,从初次检索结果里面选择前列K个页面构成重新排序的一个页面集合;在选择页面时候对于属于同一网站的多个页面,只保留分值最高的页面,其它页面忽略;(2) 计算原创 2006-05-19 17:36:00 · 4649 阅读 · 0 评论 -
搜索引擎anti-spam系统设计指南
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 搜索引擎anti-spam系统设计指南 中科院软件所张俊林TIMESTAMP:2006年5月20日 一. 设计原则与整体体系结构1.1 设计原则搜索引擎ANTI-SPAM作为一个新型的技术领域,目前逐渐引起学术届和搜索引擎市场的逐步重视.通过大量资料分析,我认为一个好的实用ANTI-SPA原创 2006-05-30 10:38:00 · 6900 阅读 · 1 评论 -
搜索引擎重复网页发现技术分析
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 搜索引擎重复网页发现技术分析 中科院软件所 张俊林TIMESTAMP:2006年6月1日 一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不原创 2006-06-09 14:28:00 · 13562 阅读 · 3 评论 -
搜索引擎定向广告策略--以百度为例
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 搜索引擎定向广告策略--以百度为例 中科院软件所 张俊林 timestamp:2006年7月3日 关键词定向原创 2006-07-03 23:56:00 · 7092 阅读 · 3 评论 -
MAP/REDUCE:Google和Nutch实现异同及其他
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/ 张俊林 timestamp:2006年11月26日设计要素nutch包含以下几个部分: 辅助类 Log:记载运行信息; Time:原创 2006-11-26 17:50:00 · 3717 阅读 · 0 评论 -
社交搜索Graph Search技术解析
Facebook是目前世界上最著名的社交网站,月活跃用户已超过10亿,每日登陆网站的用户超过6亿。如果从数据抽象的角度来看,Facebook的社交图不仅包括好友之间的关系,还包括人和实体以及实体之间的关系,每个用户,每个页面,每张图片,每个应用,每个地点以及每个评论都可以作为独立实体,用户喜欢某个页面则建立了用户和页面之间的关系,用户在某个地点签到则建立了用户和地点之间的关系……如果将每个实体...原创 2018-07-15 09:54:10 · 12981 阅读 · 2 评论