自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

pennyliang的专栏

梁斌的博客

  • 博客(48)
  • 资源 (2)
  • 收藏
  • 关注

原创 百度“哼唱”音乐搜索

百度今日对外确认将会在下半年推出新的搜索方式:“哼唱搜索”,提供给用户更方便更直观的音乐搜索新体验。

2010-07-30 13:52:00 2194

原创 微软的学术可视化搜索

<br />Junghoo Cho是我很喜欢的大牛,看过他很多论文,大家可以看结果。<br />http://academic.research.microsoft.com/VisualExplorer.aspx#Junghoo%20Cho<br /> <br />点击头像后<br />http://academic.research.microsoft.com/Author/1625075.aspx<br />里面有很多他发表的论文,以及引用的情况,非常适合研究者使用。<br /> <br />可视化搜索

2010-07-30 13:47:00 1504 3

原创 答索引构造一问

索引的构造设计可以从下面点出发去考虑comperssion/decompressioncachingparallelismearly termination(pruning)skipping

2010-07-30 12:09:00 1683

原创 企业激励机制的思考(续)

上回我们说到任志强将被管理者划为上中下三个层次的划分,上层用道家的“无为而治”,中层用儒家的“人性本善”,下层用法家的“人性本恶”的管理思想。本文将就激励方法进行深入的探讨。

2010-07-30 08:38:00 784

原创 企业激励机制的思考

一个企业中总是不断有人才流入流出,这并不奇怪,但是如果达到了行业间疯狂挖角,破坏游戏规则的时候,事情就变得复杂起来,今天看到张朝阳的一番言论【1】,足见当前游戏产业挖角厉害,当初搜狐网游也是从sina挖来的团队。

2010-07-29 09:48:00 924 2

原创 学习张朝阳怎么花钱

原文:http://imeigu.blog.sohu.com/157126355.html

2010-07-28 14:42:00 908

原创 谷歌问答上线 悲凉下的涌动

谷歌问答首页:http://www.google.com.hk/wenda/

2010-07-27 09:50:00 1963 10

原创 False Sharing问题

在多处理器,多线程情况下,如果两个线程分别运行在不同的CPU上,而其中某个线程修改了cache line中的元素,由于cache一致性的原因,另一个线程的cache line被宣告无效,在下一次访问时会出现一次cache line miss,哪怕该线程根本无效改动的这个元素,因此出现了False Sharing问题

2010-07-26 15:16:00 11571 5

原创 管理者需要的素质

     今天看了一位同事的博客,写得非常精彩,对主管的方方面面都进行深刻的思考,推荐给大家。     我还想精炼一下,给出我的额观点。     第一 认识力(眼光),这包括了认识客观环境的能力,认识自我的能力,哪些是敌人,哪些是朋友,什么人该怎么用,自己的优势和劣势,很多人最后死都不知道是死在朋友手里的,这样的人就是缺乏观察力,觉察力。还有很多人好高骛远,不切实际,这样的人缺乏对自我的认识,更有些人乱定目标,乱给方案,最后一事无成,这样的人一次两次喊话可以,喊多了就没人听了。提高认识力的方法一定要多经历,

2010-07-21 16:46:00 1265

原创 搜索引擎早期重要论文推荐系列【8】《Implementation of a Modern Web Search Engine Cluster》

本文发表于2003年,在纽约石溪大学Tzi-cker Chiueh教授负责下,耗时3年完成的一个搜索引擎原型,以此原型诞生了一些重要论文,本文是其中最重要的一篇概述论文,其中对方方面面都有阐述和介绍,包括流水线,自行开发的集群通信机制Information Service(IS)等等。其中给出的一些参考数据非常有价值。

2010-07-21 08:56:00 1290

原创 搜索引擎早期重要论文推荐系列【7】《Searching the Web》

这可能是我目前位置读到的最全面,最完整的搜索引擎论文,《走进搜索引擎》很多内容都源于这篇论文。

2010-07-20 16:39:00 2296

原创 为什么一个磁盘的sector是512个字节

这是1956年由industry trade organization, International Disk Drive Equipment和Materials Association三家机构确定的行业标准。

2010-07-20 13:28:00 11202 1

原创 马诺居然上纽约时报了 很不可思议

<br /> <br />这年头媒体导向实在很有问题,普通群众关注的太少了。<br /><br /> <br />参考阅读:http://www.nytimes.com/2010/07/19/world/asia/19chinatv.html?_r=1&hp

2010-07-19 17:09:00 1313

原创 搜索引擎早期重要论文推荐系列【6】

AlphaSort: A Cache-Sensitive Parallel External Sort Chris Nyberg, Tom Barclay, Zarka Cvetanovic, Jim Gray, Dave Lomet

2010-07-19 11:41:00 1233

原创 从这个帖子说开“稀疏向量的计算方法”

今天我在水木想找找fervvac (高远)发的帖子,无意间找到了这篇文章。 fervvac是我的偶像,我向他学习,要努力并且低调,帮助别人。 生活的快乐也许就是,在下班时往家赶的时候,家里人在分别了一天之后再次团聚,其乐融融。

2010-07-16 16:18:00 4576

原创 微软企业文化

我前不久上传的一个资料,对企业文化感兴趣的朋友可以阅读http://download.csdn.net/source/2528420

2010-07-16 08:21:00 1566

原创 蚂蚁网关站

蚂蚁网的老板来过清华作过报告,我也听过,但当时就觉得他太理想,对互联网的理解还不够,对优质用户的追求有些过分了。倒闭的结局也在意料之中。

2010-07-15 10:31:00 1039

原创 分词词典数据结构的探讨

<br />      基于TRIE索引树的结构在分词词典数据结构中普遍采用,即便在改进的数据结构中其思想也都保持不变,本文以TRIE索引树来对分词词典进行一些分析。<br />      数据结构首先包含一个首字的数组,每个数组的offset即某个汉字的编码转化为short整形的值(一个汉字2字节)。gb2312编码表可以参见:http://linux.chinaunix.net/techdoc/desktop/2009/03/12/1101139.shtml。例如,“啊”是编码表中的首个汉字,编码为45

2010-07-15 09:29:00 2418 4

原创 一个很讽刺的图画

领导总是看着下属太“shit”,而下属看领导总是太“混蛋”。

2010-07-14 14:01:00 1606

原创 几大搜索引擎搜索结果页大小的比较

再次证明百度无愧是行业王者,走在搜索引擎行业的最前端。

2010-07-14 13:45:00 2040 2

原创 TCP协议调优-抑制慢启动技术

慢启动的初始拥塞窗口一般设置为1个MSS(Maxium Segment Size)[cwnd=1],这里解释一下MSS和MTU的关系,MTU是链路层最大传输单位,以太网通常是1500,MSS通常是1500-50=1460,其中20个字节为TCP包头,20个字节为IP包头。MSS大小一般很难修改,是在通讯双方的MSS取最小值作为MSS,参见参考阅读资料,因此调整初始窗口大小尤为关键。

2010-07-14 09:25:00 1445

原创 搜索引擎早期重要论文推荐系列【5】

《Linux Performance and Tuning Guidelines》

2010-07-13 16:59:00 880

原创 TCP协议调优-强制快速重传技术(Spurious retransmissions)

Linux的超时重传默认是3秒,这就意味这,一旦发生丢包,用户的体验将会很不好,因此可以采用强制快速重传技术来进行提速(Spurious SYN/SYN-ACK retransmissions),将超时重传时间强制设定为1秒。但这可能会导致duplicate packets,可以通过修改TS或DSACK(允许发多个ACK)等方式来进行改进。

2010-07-13 16:10:00 24779 1

原创 关于搜索引擎索引文件的一些介绍

在搜索引擎的技术中,索引是一项很复杂的技术,索引文件具有以下特点:(1)文件异常大,一般都是TB级别的文件。(2)文件只读不写,索引仅仅用来查询,只有只读操作。(3)索引文件的更换并不频繁。

2010-07-13 11:28:00 2189 4

原创 百度联手清华发布《搜索引擎技术基础》

搜索引擎技术基础 作者:刘奕群、马少平、洪涛 普通高等教育“十一五”国家级规划教材

2010-07-12 12:15:00 2890 5

原创 google的搜索体验太赞 导航类新闻站搜索非常棒

输入了www.sfgate.com这个新闻网站的域名,google给出的结果除了导航,还包括子栏目导航和站内搜索。

2010-07-12 11:31:00 906 1

原创 谷歌雅虎新闻大战-两种路线的PK

Yahoo and Google in high-tech news war

2010-07-12 11:17:00 1167

原创 搜索引擎早期重要论文推荐系列【4】

The Connectivity Server: fast access to linkage information on the Web

2010-07-12 10:13:00 1289

原创 搜索引擎早期重要论文推荐系列【3】In-memory URL Compression

《 In-memory URL Compression》作者Kasom Koht-arsa,Surasak Sanguanpong

2010-07-09 16:18:00 1436 1

原创 搜索引擎爬虫的基本需求和考核标准

做好爬虫实属不易

2010-07-09 09:33:00 4334 1

原创 搜索引擎早期重要论文推荐系列【2】

challenge in web search engine

2010-07-08 17:02:00 895

原创 搜索引擎早期重要论文推荐系列【1】

Building a Distributed Full-Text Index for the Web

2010-07-08 16:28:00 1289 7

原创 将一个已经运行的进程attach到固定CPU内核上的方法(linux,windows)

对已经运行的外部程序,设置hard affinity的方式

2010-07-08 10:27:00 1667

原创 多核编程之流水线技术

多核编程之流水线技术

2010-07-08 09:29:00 2152

原创 将进程或线程attach到一个特定CPU核上的方法(sched_setaffinity pthread_setaffinity_np example)

对已经自有程序,设置soft affinity的方式

2010-07-08 09:02:00 7399

原创 用google的page speed工具来看各大网站的前端制作水平

百度无愧王者,细致入微,佩服佩服。

2010-07-07 10:11:00 1102 3

原创 什么是cookieless domain?

在网页优化中有一种优化方式,简称cookieless domain,这是一种是将网页中静态的文本,图片等的域名和主域名相区别开的方法。

2010-07-07 09:51:00 1105

原创 中文分词方法的基本方法和持续改进的思路

在实际中需要注意以下几点,改善分词质量(1)地名的识别和处理(2)人名的识别和处理(和地名不同,人名的难点是无法做得将所有人民作为词典中的词来存储)(3)数字(含中文数字),页码等的识别(4)词性识别,语气词,助词等(5)分词出现单字的处理

2010-07-07 09:29:00 1610

原创 动态规划的中文分词方法

动态规划的中文分词方法

2010-07-07 09:04:00 3815 5

原创 UUzone倒下了 360quan也倒下了 下一个是谁?(转)

7月6日消息,又一个SNS网站倒闭了,这不是第一家,也不是最后一家。上周,创立三年的社交网站360圈(360quan.com)以关闭的结局宣告国内SNS领域又一泡沫的破灭。  2007年,UUzone成为国内SNS领域失败的先例,其失败主因和360圈类似:两者同为资金投入的断链。

2010-07-06 16:00:00 1148

Topology-Calculation-Tuning本学期一份组内报告

这是一个在组内做的技术报告,从技术的观点,介绍了布局,计算和调优的工作,这些工作是一个工程师的必修课,这里以点带面的进行了展开,是为了表明,编代码不是盲目的写,而是要有计划,有层次,有把握地去写,我水平有限,这些只是自己的思考,因为我还刚上路呢。。。

2011-01-19

微软企业文化内训资料

微软企业文化内训资料,该资料主要介绍微软组织架构,价值观,管理理念等等

2010-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除