搜索引擎
pennyliang
of the people, by the people, for the people--abraham lincoln
展开
-
《走进搜索引擎》第二版勘误
P195 第4行q_1, q_1, ..., q_T应该改为:q_1, q_2, ..., q_TP199 7.7.1节第一自然段x_{1,1}^j, x_{1,2}^j, x_{1,1}^j应该改为:x_{1,1}^j, x_{1,2}^j, x_{1,3}^jP207 第5行,公式中/epsilon_{i,j,k} ... 0 应原创 2011-06-10 13:07:00 · 2784 阅读 · 0 评论 -
百度联手清华发布《搜索引擎技术基础》
搜索引擎技术基础 作者:刘奕群、马少平、洪涛 普通高等教育“十一五”国家级规划教材原创 2010-07-12 12:15:00 · 2893 阅读 · 5 评论 -
搜索引擎爬虫的基本需求和考核标准
做好爬虫实属不易原创 2010-07-09 09:33:00 · 4340 阅读 · 1 评论 -
将一个已经运行的进程attach到固定CPU内核上的方法(linux,windows)
对已经运行的外部程序,设置hard affinity的方式原创 2010-07-08 10:27:00 · 1669 阅读 · 0 评论 -
中文分词方法的基本方法和持续改进的思路
在实际中需要注意以下几点,改善分词质量(1)地名的识别和处理(2)人名的识别和处理(和地名不同,人名的难点是无法做得将所有人民作为词典中的词来存储)(3)数字(含中文数字),页码等的识别(4)词性识别,语气词,助词等(5)分词出现单字的处理原创 2010-07-07 09:29:00 · 1611 阅读 · 0 评论 -
将进程或线程attach到一个特定CPU核上的方法(sched_setaffinity pthread_setaffinity_np example)
对已经自有程序,设置soft affinity的方式原创 2010-07-08 09:02:00 · 7400 阅读 · 0 评论 -
动态规划的中文分词方法
动态规划的中文分词方法原创 2010-07-07 09:04:00 · 3818 阅读 · 5 评论 -
人民搜索再体验 标题抽取存在问题
<br />今天在人民搜索(goso.cn)的博客搜素,搜索[pennyliang]<br /> <br />发现在结果中对文章标题的提取可能存在问题,使用了锚文本作为文章标题。<br />见下图:<br /><br /> <br />原创 2010-07-02 14:43:00 · 2147 阅读 · 4 评论 -
互联网牌照化管理是非凡的创新
我们不妨细数发生的这些动作。 最早是互联网的ICP证,这是最基本的合法证明。 后来是新闻网站的牌照,百度苦苦追寻了多年才获得,而谷歌一直不敢叫新闻,而是叫资讯正式打擦边球的无奈之举。 在近一点的是互联网视频的牌照,为此还出过不少事,后来因祸得福,早期的互联网视频站反而为此升值了。 当然还有默默无闻的IPTV牌照等等。 时下是热炒的在线地图牌照,谷歌因未获牌照成为关注的焦点。 这些牌照的出现体现了国家对互联网管理的加强,对运营合法性的掌控体现了政府的智原创 2010-06-30 08:50:00 · 1058 阅读 · 4 评论 -
惊闻《深入搜索引擎》又加印了2000册
截至目前,一共印刷了8000本。原创 2010-06-29 13:02:00 · 1371 阅读 · 6 评论 -
部分百科词条内部导航直接进搜索结果页
网页搜索,搜陈独秀,百科内部导航直接进搜索结果页,这个用户体验做得好啊。 记得此前我也发过google.com实现的这个功能,techcrunch的一个新闻。 百度这么快就做了啊。 背景参见:http://www.techcrunch.com/2009/09/25/anchors-away-google-now-has-search-results-within-原创 2010-01-01 17:53:00 · 975 阅读 · 0 评论 -
百度的一个搜索结果体验很不好
对于某些特别需要尊敬的词汇应该特别处理啊。。。 细节,还是细节。 百度产品已经是行业领先了,还是有瑕疵,可见搜索引擎还有很多改进空间啊。原创 2010-01-01 18:06:00 · 997 阅读 · 0 评论 -
搜搜太善于学习了,很赞
百度的搜索前不久增加了在搜索串中加上上一个搜索词,今天突然发现soso也学习了这个功能。soso不知不觉地在后面学习啊,soso太强了。 参见水木当初的讨论:http://www.newsmth.net/bbstcon.php?board=SearchEngineTech&gid=18630原创 2010-01-01 17:59:00 · 1083 阅读 · 1 评论 -
2010年给搜狗搜索的10个建议
(1)用户体验需要不断专业化,找专业的用户体验机构进行优化改造 优秀的互联网公司(比如腾讯)都有专业的用户体验工作室,长期对各种用户进行研究和分析。 对网页的每个局部都有细致的统计和分析,用户的流向,流失,沉淀。 搜狗网页搜索有很多体验不够理想,比如: *搜狗首页的功能,股票查询,天气预报,点过去的体验太差了,一方面位置太高,第二没有标红,用户点过来感到很茫然。 *对query原创 2010-01-03 20:24:00 · 2605 阅读 · 14 评论 -
百度正式启动凤巢系统 开创百度搜索广告技术新纪元
我有若干同学在做这个,他们加班很辛苦,1年多找他们聚会都说忙,加班一般到晚上11点,现在上线了,可以松一点了,本周找他们聚聚。 简单说一下这个凤巢系统: 凤巢系统(即百度搜索营销专业版),目的在于解决百度曾经的普通搜索结果和竞价排名搜索结果混淆的问题。凤巢系统逐步接管现有的推广位置和现有的关键词管理功能,并最终接管全部推广位置和关键词的管理功能。20原创 2009-12-02 12:02:00 · 2571 阅读 · 0 评论 -
SD2.0大会签售《深入搜索引擎》二三事
上周五参加了博文视点在SD2.0大会上的签售活动,一共签出了5本《深入搜索引擎》,这已经是第二次签售。上一次是《走进搜索引擎》,共计签售了21本。 签售的过程中认识了很多新朋友,也见到了很多老朋友。 最让我思考的是两件事,第一个是我在和刘铁峰,宋兴列,蒋涛的一个对话中,有一个朋友提到了进制问题,说他在面试一个人,搞汇编的,说自己对进制很有研究,于是这个朋友给面原创 2009-10-26 10:51:00 · 1417 阅读 · 0 评论 -
谷歌雅虎新闻大战-两种路线的PK
Yahoo and Google in high-tech news war原创 2010-07-12 11:17:00 · 1198 阅读 · 0 评论 -
分词词典数据结构的探讨
<br /> 基于TRIE索引树的结构在分词词典数据结构中普遍采用,即便在改进的数据结构中其思想也都保持不变,本文以TRIE索引树来对分词词典进行一些分析。<br /> 数据结构首先包含一个首字的数组,每个数组的offset即某个汉字的编码转化为short整形的值(一个汉字2字节)。gb2312编码表可以参见:http://linux.chinaunix.net/techdoc/desktop/2009/03/12/1101139.shtml。例如,“啊”是编码表中的首个汉字,编码为45原创 2010-07-15 09:29:00 · 2421 阅读 · 4 评论 -
从这个帖子说开“稀疏向量的计算方法”
今天我在水木想找找fervvac (高远)发的帖子,无意间找到了这篇文章。 fervvac是我的偶像,我向他学习,要努力并且低调,帮助别人。 生活的快乐也许就是,在下班时往家赶的时候,家里人在分别了一天之后再次团聚,其乐融融。原创 2010-07-16 16:18:00 · 4579 阅读 · 0 评论 -
Reddit月浏览量超10亿
根据Google Analytics统计,Reddit一月份页面浏览量突破10亿次大关,独立用户访问量接近1400万。原创 2011-02-03 22:16:00 · 1718 阅读 · 1 评论 -
用户日志生成策略,哪个方案好?
假定我们有1亿用户的访问日志数据,每个用户在每天的日志中都可能有浏览信息,也可能没有;每天的日志是按时间顺序生成的,每个用户浏览的时间确可能跨度很大,例如一个用户的浏览行为在日志的第1,100,10000行上进行了记录。现在我们需要将该日志转化为一个以用户ID为关键码,用户在该天的浏览历史做值的这样一个日志,并且要求当输入用户ID和指定时间段(最多为3个月),那么该用户日志该如何生成?这里给三个方案: A:单表策略,为主关键字,为值,任何搜索都只需对表做一次操作。 B:多表策原创 2010-10-19 16:59:00 · 2054 阅读 · 8 评论 -
阿里巴巴云计算老板王坚来清华做了报告
最近我一直在思考一个问题,计算如果可以和水,电一样成为基础设施,那么除了规模大,成本低,服务接入方便等以外,如何度量付费是一个难点,今天清华的新生入学报告,恰好请了阿里巴巴云计算老板王坚来做报告。 我一次见王博士是在CSDN举办的一个大会上,那时就给我留下了思想家的映像,今天清华大学新生入学教育的这次报告中,因为是面向学生,所以报告显得更加具有思想性,内容很丰富,仅就两点回顾一下。 一个产业如何才能做大,云计算如何做大?他特别强调了规模,成本,服务。王坚举了美国麦当劳和Bur原创 2010-09-07 13:34:00 · 3778 阅读 · 0 评论 -
邓亚萍加盟人民日报社 担任人民搜索一把手
邓亚萍加盟人民日报社 担任人民搜索一把手原创 2010-09-19 12:45:00 · 4030 阅读 · 12 评论 -
《深入搜索引擎》勘误新增两条 感谢尚家兴同学的指正
<br />第二章 <br /> P62 第3段第4行<br /> 译文:在这种情况下,需要使用6个算术编码步骤。这看上去很多,实际上很少。<br /> 较好的翻译应该是:这看上去很多,但这种情况发生的概率很小。<br /> in this case, six arithmetic encoding stpes would be required. This may seem extreme,but actu原创 2010-09-04 09:49:00 · 1850 阅读 · 0 评论 -
关于高维数组计算的一些优化
这方面我刚刚开始了解一些这方面的内容,还没有清楚地整理出来,下面是我推荐的一些阅读。 后续还将陆续补充一些内容,最后完成一篇博客来完整的论述这一块的内容。原创 2010-08-10 11:19:00 · 2149 阅读 · 0 评论 -
公司初创雇佣什么样的人
谷歌投资人Michael Moritz强调人的重要:如果你是家技术型公司我想你最初雇来的3、4名工程师决定了这家公司是怎样的公司。如果你雇了最杰出的人,他们也会雇来杰出的员工。如果你雇的人平庸那一切都来不及了。我想最初的30天、60天、90天,一切事情就都明了了。原创 2010-08-05 12:25:00 · 1664 阅读 · 0 评论 -
搜索引擎和导航网站的关系
我们怎么来看到导航和搜索了,其实本质上他们都是相似的,导航和搜索都是用户寻找信息的指南,导航更加的简单初步,可以算是query free的搜索,而搜索确需要提交关键词,精确地定位所需要的信息,因此搜索和导航是必不可分的。几乎各大搜索引擎公司都开发或者收购导航网站。原创 2010-08-03 08:58:00 · 1523 阅读 · 0 评论 -
镜像网站的识别
镜像网站的识别原创 2010-08-02 11:28:00 · 1460 阅读 · 1 评论 -
什么是流水线友好的代码?
流水线的工作原理和相关介绍参考【1】。 通常情况下,流水线停滞主要由三方面原因导致:(1)cache不命中,(2)数据依赖,(3)分支指令。原创 2010-08-03 13:58:00 · 2208 阅读 · 1 评论 -
答索引构造一问
索引的构造设计可以从下面点出发去考虑comperssion/decompressioncachingparallelismearly termination(pruning)skipping原创 2010-07-30 12:09:00 · 1685 阅读 · 0 评论 -
谷歌问答上线 悲凉下的涌动
谷歌问答首页:http://www.google.com.hk/wenda/原创 2010-07-27 09:50:00 · 1967 阅读 · 10 评论 -
搜索引擎早期重要论文推荐系列【8】《Implementation of a Modern Web Search Engine Cluster》
本文发表于2003年,在纽约石溪大学Tzi-cker Chiueh教授负责下,耗时3年完成的一个搜索引擎原型,以此原型诞生了一些重要论文,本文是其中最重要的一篇概述论文,其中对方方面面都有阐述和介绍,包括流水线,自行开发的集群通信机制Information Service(IS)等等。其中给出的一些参考数据非常有价值。原创 2010-07-21 08:56:00 · 1292 阅读 · 0 评论 -
搜索引擎早期重要论文推荐系列【7】《Searching the Web》
这可能是我目前位置读到的最全面,最完整的搜索引擎论文,《走进搜索引擎》很多内容都源于这篇论文。原创 2010-07-20 16:39:00 · 2297 阅读 · 0 评论 -
几大搜索引擎搜索结果页大小的比较
再次证明百度无愧是行业王者,走在搜索引擎行业的最前端。原创 2010-07-14 13:45:00 · 2041 阅读 · 2 评论 -
说说我创办欧美文化频道的一些原因
近3年来,我最想表达且总不能简洁地表达的一种思想,我暂且用“交代”这个词来表达。一个人具有了思想,并且参与了与人的交流以后,就需要不断地交代自己的想法,商贩如果能把自己的商品交代好了,就能买得好;思想家如果能把思想交代好了,就会有人信仰;作产品也是一样,我们要传达,要交代一些内容,无论以网游、新闻还是什么形式,交待得好就会有很好的用户反馈,开心网的迅速崛起就是很好的阐明了“开心”的这种原创 2009-10-17 21:08:00 · 1772 阅读 · 1 评论 -
百度工具条的一个新功能,翻译和浏览非常方便
我在前日在水木搜索引擎版发了贴,提到了双击取词。http://www.newsmth.net/bbscon.php?bid=715&id=18106 今日,百度就更新了工具条,引入了双击取词的功能,如下:在翻译过程中非常方便。不过很多人不装工具条所以体验不到了。 另外,奉送我今天翻译的两条新闻。 火箭激情胜雷霆止连败 休斯敦纪事报头条送邦苏 詹姆斯甲流结原创 2009-10-16 12:56:00 · 810 阅读 · 1 评论 -
百度收购Hao123始末 ZT
这个简陋得让精英们不屑一顾的Hao123.com却是全球流量最大的中文网站之一。 在百度诸多的频道中,有一个很特别,它不叫百度,而叫另外一个名字。它的故事绝对是当今中国互联网故事的一个传奇。 兴宁,是广东梅州地区的一个县级市。2004年夏末的一天,百度深圳分公司的刘计平坐的火车到达兴宁时,已是凌晨三点,街道上灯火黯淡。他找了个酒店住下,天亮后,他要见一个叫李兴平的年轻人。 李兴平,并不住在转载 2007-02-26 10:27:00 · 2738 阅读 · 0 评论 -
搜索引擎面对的主要问题
和传统的图书或者文献的全文检索系统相比。图书,主题分散,权威性高,规模有限 ,内容稳定,并发查询数低,响应时间要求不高。网页,主题集中,权威性低,规模巨大,内容不稳定,并发查询数高,响应时间要求高。主题问题涉及到数量,由于主题集中网页的创造者几乎可以等价与网页的读者。权威性问题,涉及到搜索展示的问题(结果排序问题),以及检索结果数量级问题,由于互联网网页大量权威性低的网页,所以其检原创 2007-02-24 10:02:00 · 1887 阅读 · 0 评论 -
Rocchio算法,其他分类算法通用阈值确定方法
通过对PR曲线的绘制,了解阈值设定对PR值影响的状况,这里假定P,R都是重要的,采用角平分线和该曲线的交点,交点处为PR值达到最佳的点,作为调和平均数F-measure,P,R均取高值,该指标才可能高。下图为公交分类过程中,阈值不同,描出的不同点,通过计算夹角余玄设定为0。2为最理想。原创 2007-01-10 15:45:00 · 5091 阅读 · 0 评论 -
web直径问题
Web直径计算公式d = 0.35+2.06*log(N)IBM,Compaq和AltaVista采用2亿数据验证,得到Web直径为16.中国的网页直径大约是17。网页直径的意思就是任意两个网页之间存在一条有向路径的话,那么期望的点击为17次,即可由一个网页到达另外一个网页。计算方法可以采用这样的方法。任取足够大的网页数,假定为N.建立一个N*N的二维矩阵,采用可达性计算方法,对于所有相互可达的网原创 2007-02-24 14:50:00 · 1980 阅读 · 2 评论