关闭

关于go语言

 腾讯soso 文/王益     最近几个星期里,我的工余时间基本全部放在学习和使用Go语言上了。这只螃蟹很好吃;向大家推荐。    对Go语言的总体感觉:- Go语言的语法简单(语言的复杂程度小于C++和Java,关键词数量相当于C),- Go程序的编译速度非常快。我尝试了两种Go编译器:  1. Rob Pike的GC编译器编译起来瞬间完成;  2. Ian Taylor的gccgo编...
阅读(36277) 评论(7)

情境搜索专题访谈

腾讯soso—soso高层和高校专家畅谈情境搜索未来       参加本次访谈的主要嘉宾有:腾讯soso总经理孙良,腾讯soso副总李京,腾讯soso副总监杨海松,北京信息科学技术学院教授俞士汶,中科院计算所程学旗,访谈由csdn的总编刘江主持。       本次访谈主要讨论了传统搜索引擎的现状,发展中遇到的瓶颈,对于很多现在引擎解决的不是很好的case进行交流,提出解决方法。由此大家交流了对下 一代搜索引擎的思考,soso专家提出了情...
阅读(15327) 评论(1)

腾讯搜搜孙良:“情境搜索”更懂你

腾讯soso 【TechWeb】2010年12月9日,谷歌地理位置和本地服务副总裁玛丽莎·梅耶尔透露,谷歌有望明年正式推出“情境发现”服务。而这恰恰与2009年腾讯搜搜提出的“情境搜索”如出一辙。近日,笔者就“情境搜索”的相关问题采访了腾讯搜索技术研发中心总经理孙良。 TechWeb:“情境搜索“是何时提出的?孙良:大概09年初,搜搜开始对情境搜索概念进行内部讨论。其实更早的时候,我们就在考虑搜搜如何去做搜索。09年9月份,...
阅读(13177) 评论(4)

Google Protocol Buffers 实用技术:解析.proto文件和任意数据文件

腾讯soso文/王益       Google Protocol Buffers 是一种非常方便高效的数据编码方式(data serialization),几乎在Google的每个产品中都用到了。本文介绍 protocol buffers 的一种高级使用方法(在Google Protocol Buffer的主页上没有的)。      Protocol Buffers 通常的使用方式如下:我们的程序只依赖于有限的几个 protocol messages。...
阅读(11122) 评论(7)

解密”搜索引擎热”:”引擎”价值在哪里

  核心观点掌握了搜索,也就抓住了互联网经济的制高点谁抓住了搜索引擎,谁就抓住了互联网上信息传递的主动权互联网没有疆域,但利益有疆界,有民族性,有国界基础设施能力和拥有数据资源多少,是另一种形式的“核武器”           随着网络上信息的不断膨胀,互联网之争,越来越演化为入口之争。而搜索引擎,正是这样的一个入口。“在互联网领域,谁掌握了搜索引擎,就掌握了信息的入口,这背后,是巨大的经济利益,是话语权,是一国信息技术实力和水平的展现。”中国科学院计算技术研...
阅读(3415) 评论(0)

别让妈妈生气——浅谈长者用户

腾讯设计师文/朱丽娜        放假回家难得清闲,奇怪还不到一周就坐不住了,左顾右盼百无聊赖,心里痒滋滋的——原来是网瘾犯了——为了说服父母同意牵网,我承诺他们,保证他们学会上网!      我的计划是:一周之内,教会妈妈浏览网页,教会爸爸上网斗地主。      先剧透一下结局。一周下来,妈妈怒了。在我第500次嘟囔“怎么还学不会”的时候,她吼道:“我这人完全不笨!要么电脑不好,要么是你教得不好,总之是你们不好!”爸爸在...
阅读(16015) 评论(106)

搜索下一站:个性化搜索基本方法和简单实验

 腾讯soso文/王亮       所谓的个性化搜索,就是将用户输入的关键字和该用户的个人偏好联系起来进行查询,据此猜测该用户可能想要得到的信息,从而将该用户最可能需要的信息显示在最前面。      个性化搜索研究早在上世纪九十年末就已有之,相关的方法和研究已经非常多,但商业化的大规模应用尚未出现。其根本原因在于很少有用户愿意直接或间接提供个人信息,像目前很多实验系统都是采集IP的点击记录、cookie等信息构建用户模型,这样的模型显然也很难精确。...
阅读(10881) 评论(22)

《搜搜月历》:搜搜的马斯洛分析

腾讯soso       《搜搜月历》是腾讯公司旗下搜索网站搜搜的一个月度精品内容类产品。创刊于2010年4月15日,并发布了第1期。该刊每月10日左右上线,每期16-18个版面,涵盖每月重要时事、网络热点、娱乐体育、流行风尚等多个领域,反映了亿万网民的搜索习惯和互联网的关注方向,登录阅读还可以参与抽奖。往期月历回顾:搜索月历       11月搜搜新logo上线特刊重磅推出 ...
阅读(13259) 评论(10)

搜搜启用全新品牌标识

       2010年10月26日凌晨,在我们期冀的目光中,搜搜全新品牌标识正式上线了。       随着搜搜自研引擎、搜索推广系统、无线搜索引擎的成功切换,随着网页直达区、问问、创意图片等特色产品与功能坚持不懈的自我打磨,搜搜对技术创新以及用户理解的坚持,使得搜搜的用户得到快速地增长。5年的积累和发展,让我们共同经历了一个从无到有,从有到有特色的搜搜。而搜搜品牌新标识的启用,正代表了这样一个成长过程。  互联网的快速普及发展,使得用户需求越来越...
阅读(6881) 评论(27)

构建一个高性能的网页抓取器

腾讯soso文/武泽胜       互联网的发展,使人类提前进入了信息爆炸的年代,在浩瀚无边的信息海洋里,如何快速、准确找到对自己有用的信息,就成了一个很有价值的研究课题,于是,搜索引擎应运而生。现在,国内外大大小小的搜索引擎有很多,搜搜也是这搜索引擎大军中的一员悍将。笔者有幸参与了搜搜研发过程中的一些工作,在这里写一些自己的理解与看法,权当是抛砖引玉,希望能够得到业内前辈们的一些指点。      对于网页搜索引擎来说,它的基本处理流程,通常可以分为三个步骤:...
阅读(20686) 评论(44)

搜搜产品日记——IM聊天助手优化

      QQ聊天助手近期针对右侧结果进行了一些功能优化,新增了表情、股票、词典、天气四类直达区,让你的聊天内容更丰富,更轻松。 新增表情直达区      搜索“搞笑表情”、“兔斯基”、“签到表情”等关键词,即可命中表情直达区。将鼠标放于图片之上,即可进行预览。点击图片即可复制,并发送给好友。 股票直达区      搜索股票代码(如:0700)或股票名称(如:腾讯控股)即可访问股票直达区,快捷的查看...
阅读(3175) 评论(0)

检索系统的下游管理

 检索系统的下游管理腾讯soso文/黄达文、雷冬冬    搜索引擎的检索系统,是一个复杂的分布式计算系统,往往需要成百上千台机器通过网络连接协同工作,处理用户的检索请求。不仅如此,由于数据分布以及容灾的问题,机器间往往还有上下游、分组、分镜像的关系。本文讲述如何管理这些机器间的拓扑关系。 一、检索系统的整体拓扑    整个检索系统的机器的拓扑关系,类似一个树状的结构,如图1所示...
阅读(5626) 评论(5)

浅谈产品感的培养

  产品感的具体化以及培养浅谈腾讯soso文/赵世勇 个人简介:赵世勇,soso平台部产品总监。1999年毕业于清华大学自动化系,十年以上互联网产品策划、研发和项目管理经验,2006年进入腾讯。     关于产品感的具体化以及培养方式,首先要明确圈定产品经理的范围。软件工程师,大家都知道是个什么样的岗位,而产品经理似乎很多人都存在疑问,在招聘、和人聊天的时候,经常会碰到类似的问题。产品经理概念,最早出...
阅读(16125) 评论(31)

人工智能算法—朴素贝叶斯分类

  文/腾讯soso林世飞     以下是个人学习贝叶斯分类器—文本分类的学习笔记,和大家一起学习交流。准备工作    监督学习型分类器特点 ,能够从一个不确定度状态开始,通过提供 正确和错误的样本 ,不断来确定哪些特征(特征由特征提取函数,从样本中提取 )对于分类更重要,可以有很多个分类器,来应对不同的分类或者过滤需求。所以训练本身非常重要。    先来复习下一个数学符号,条件概率:pr(A|B) 给定B条件...
阅读(7302) 评论(5)

人工智能算法- 优化算法

  文/腾讯soso林世飞     优化算法通常用来处理问题最优解的求解--这个问题有多个变量共同决定的,举一个例子比如有这样一张人员关系表,需要绘制一张SOSO华尔兹(一种socialnetwork,http://tag.soso.com/),比如:    绘制方法有很多种,我们希望能够最终展现给用户的绘制是比较好阅读的,比如交叉线比较少,每个人的点排的比较开等等。    我们利用以下一个数据格式来描述最终的一...
阅读(31754) 评论(49)

圆一个构建大系统的梦

     文/腾讯soso邓大付     邓大付,1997年本科毕业于上海同济大学机械学院。在天津展转3年之后,2000年重返校园,在武汉华中科技大学计算机学院开始了5年的硕博连读历程。2005年4月毕业后,留校任教4个月。于05年8月底正式加入腾讯。现任搜索平台部网页搜索中心下载副总监, 公司的搜索技术专家。           2005年8月,怀着能参与构建一套使用几千台服务器大型系统的渴望与梦想...
阅读(17642) 评论(59)

spider技术综述

 文/腾讯soso邓大付     Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中,通常先种入一批种子Url,Spider对这些种子Url采集之后将链接提取入库,然后再对新入库的Url进行采集,并且负责对采集过的Url进行更新采集,如此循环。     随着各种垂直搜索引擎的不断发展,整个Spider在功能上又分为传统的收集互联网上所有数据的大Spider和服务于某个专门领域的聚焦Spider。两类Sp...
阅读(8992) 评论(14)

人工智能算法—决策树

     文/腾讯soso林世飞     决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题    这里 介绍其基本原理 和一个实验例子。    先介绍2个算法:    算法一:熵(...
阅读(25771) 评论(35)

浅淡暗网信息抓取

文/腾讯sosososo-spider     写在最前面:之前看过一些关于暗网信息抓取的Paper,觉得这一块是我们今后做好WebSpider的一个重要的努力方向。下面就对暗网信息的抓取做一个通俗简洁的介绍,达到使一般读者能够明白暗网信息抓取基本原理的目的。  1.什么是暗网  广义地讲,任何不能通过一次(或多次)HTTP GET请求直接下载的Web页面,我们都可以认为其处于“暗网”中。不能直接通过HTTP GET请求下载...
阅读(12761) 评论(1)

搜索研发的几点感悟

文/腾讯soso杨海松     杨海松,2003年博士毕业于中国科学技术大学电子工程与信息科学系通信与信息系统专业。2005年加入腾讯公司,负责腾讯搜索的相关性研发工作。通过多年的互联网和搜索领域的研究与实践,在搜索相关性和搜索引擎架构领域积累了丰富的经验,目前担任网页搜索研发中心相关性组的技术总监。      2003年,在非典威胁刚刚解除之后,我从中国科学技术大学毕业,告别了培养我九年的母校,来到了深圳。之前的求学生涯对我而言是非常...
阅读(7151) 评论(4)
31条 共2页1 2 下一页 尾页
    个人资料
    • 访问:361019次
    • 积分:4066
    • 等级:
    • 排名:第8077名
    • 原创:30篇
    • 转载:1篇
    • 译文:0篇
    • 评论:753条
    最新评论
    友情链接