- 博客(48)
- 资源 (2)
- 收藏
- 关注
原创 微软的学术可视化搜索
<br />Junghoo Cho是我很喜欢的大牛,看过他很多论文,大家可以看结果。<br />http://academic.research.microsoft.com/VisualExplorer.aspx#Junghoo%20Cho<br /> <br />点击头像后<br />http://academic.research.microsoft.com/Author/1625075.aspx<br />里面有很多他发表的论文,以及引用的情况,非常适合研究者使用。<br /> <br />可视化搜索
2010-07-30 13:47:00 1504 3
原创 答索引构造一问
索引的构造设计可以从下面点出发去考虑comperssion/decompressioncachingparallelismearly termination(pruning)skipping
2010-07-30 12:09:00 1683
原创 企业激励机制的思考(续)
上回我们说到任志强将被管理者划为上中下三个层次的划分,上层用道家的“无为而治”,中层用儒家的“人性本善”,下层用法家的“人性本恶”的管理思想。本文将就激励方法进行深入的探讨。
2010-07-30 08:38:00 784
原创 企业激励机制的思考
一个企业中总是不断有人才流入流出,这并不奇怪,但是如果达到了行业间疯狂挖角,破坏游戏规则的时候,事情就变得复杂起来,今天看到张朝阳的一番言论【1】,足见当前游戏产业挖角厉害,当初搜狐网游也是从sina挖来的团队。
2010-07-29 09:48:00 924 2
原创 False Sharing问题
在多处理器,多线程情况下,如果两个线程分别运行在不同的CPU上,而其中某个线程修改了cache line中的元素,由于cache一致性的原因,另一个线程的cache line被宣告无效,在下一次访问时会出现一次cache line miss,哪怕该线程根本无效改动的这个元素,因此出现了False Sharing问题
2010-07-26 15:16:00 11571 5
原创 管理者需要的素质
今天看了一位同事的博客,写得非常精彩,对主管的方方面面都进行深刻的思考,推荐给大家。 我还想精炼一下,给出我的额观点。 第一 认识力(眼光),这包括了认识客观环境的能力,认识自我的能力,哪些是敌人,哪些是朋友,什么人该怎么用,自己的优势和劣势,很多人最后死都不知道是死在朋友手里的,这样的人就是缺乏观察力,觉察力。还有很多人好高骛远,不切实际,这样的人缺乏对自我的认识,更有些人乱定目标,乱给方案,最后一事无成,这样的人一次两次喊话可以,喊多了就没人听了。提高认识力的方法一定要多经历,
2010-07-21 16:46:00 1265
原创 搜索引擎早期重要论文推荐系列【8】《Implementation of a Modern Web Search Engine Cluster》
本文发表于2003年,在纽约石溪大学Tzi-cker Chiueh教授负责下,耗时3年完成的一个搜索引擎原型,以此原型诞生了一些重要论文,本文是其中最重要的一篇概述论文,其中对方方面面都有阐述和介绍,包括流水线,自行开发的集群通信机制Information Service(IS)等等。其中给出的一些参考数据非常有价值。
2010-07-21 08:56:00 1290
原创 搜索引擎早期重要论文推荐系列【7】《Searching the Web》
这可能是我目前位置读到的最全面,最完整的搜索引擎论文,《走进搜索引擎》很多内容都源于这篇论文。
2010-07-20 16:39:00 2296
原创 为什么一个磁盘的sector是512个字节
这是1956年由industry trade organization, International Disk Drive Equipment和Materials Association三家机构确定的行业标准。
2010-07-20 13:28:00 11202 1
原创 马诺居然上纽约时报了 很不可思议
<br /> <br />这年头媒体导向实在很有问题,普通群众关注的太少了。<br /><br /> <br />参考阅读:http://www.nytimes.com/2010/07/19/world/asia/19chinatv.html?_r=1&hp
2010-07-19 17:09:00 1313
原创 搜索引擎早期重要论文推荐系列【6】
AlphaSort: A Cache-Sensitive Parallel External Sort Chris Nyberg, Tom Barclay, Zarka Cvetanovic, Jim Gray, Dave Lomet
2010-07-19 11:41:00 1233
原创 从这个帖子说开“稀疏向量的计算方法”
今天我在水木想找找fervvac (高远)发的帖子,无意间找到了这篇文章。 fervvac是我的偶像,我向他学习,要努力并且低调,帮助别人。 生活的快乐也许就是,在下班时往家赶的时候,家里人在分别了一天之后再次团聚,其乐融融。
2010-07-16 16:18:00 4576
原创 微软企业文化
我前不久上传的一个资料,对企业文化感兴趣的朋友可以阅读http://download.csdn.net/source/2528420
2010-07-16 08:21:00 1566
原创 蚂蚁网关站
蚂蚁网的老板来过清华作过报告,我也听过,但当时就觉得他太理想,对互联网的理解还不够,对优质用户的追求有些过分了。倒闭的结局也在意料之中。
2010-07-15 10:31:00 1039
原创 分词词典数据结构的探讨
<br /> 基于TRIE索引树的结构在分词词典数据结构中普遍采用,即便在改进的数据结构中其思想也都保持不变,本文以TRIE索引树来对分词词典进行一些分析。<br /> 数据结构首先包含一个首字的数组,每个数组的offset即某个汉字的编码转化为short整形的值(一个汉字2字节)。gb2312编码表可以参见:http://linux.chinaunix.net/techdoc/desktop/2009/03/12/1101139.shtml。例如,“啊”是编码表中的首个汉字,编码为45
2010-07-15 09:29:00 2418 4
原创 TCP协议调优-抑制慢启动技术
慢启动的初始拥塞窗口一般设置为1个MSS(Maxium Segment Size)[cwnd=1],这里解释一下MSS和MTU的关系,MTU是链路层最大传输单位,以太网通常是1500,MSS通常是1500-50=1460,其中20个字节为TCP包头,20个字节为IP包头。MSS大小一般很难修改,是在通讯双方的MSS取最小值作为MSS,参见参考阅读资料,因此调整初始窗口大小尤为关键。
2010-07-14 09:25:00 1445
原创 TCP协议调优-强制快速重传技术(Spurious retransmissions)
Linux的超时重传默认是3秒,这就意味这,一旦发生丢包,用户的体验将会很不好,因此可以采用强制快速重传技术来进行提速(Spurious SYN/SYN-ACK retransmissions),将超时重传时间强制设定为1秒。但这可能会导致duplicate packets,可以通过修改TS或DSACK(允许发多个ACK)等方式来进行改进。
2010-07-13 16:10:00 24779 1
原创 关于搜索引擎索引文件的一些介绍
在搜索引擎的技术中,索引是一项很复杂的技术,索引文件具有以下特点:(1)文件异常大,一般都是TB级别的文件。(2)文件只读不写,索引仅仅用来查询,只有只读操作。(3)索引文件的更换并不频繁。
2010-07-13 11:28:00 2189 4
原创 google的搜索体验太赞 导航类新闻站搜索非常棒
输入了www.sfgate.com这个新闻网站的域名,google给出的结果除了导航,还包括子栏目导航和站内搜索。
2010-07-12 11:31:00 906 1
原创 搜索引擎早期重要论文推荐系列【4】
The Connectivity Server: fast access to linkage information on the Web
2010-07-12 10:13:00 1289
原创 搜索引擎早期重要论文推荐系列【3】In-memory URL Compression
《 In-memory URL Compression》作者Kasom Koht-arsa,Surasak Sanguanpong
2010-07-09 16:18:00 1436 1
原创 将一个已经运行的进程attach到固定CPU内核上的方法(linux,windows)
对已经运行的外部程序,设置hard affinity的方式
2010-07-08 10:27:00 1667
原创 将进程或线程attach到一个特定CPU核上的方法(sched_setaffinity pthread_setaffinity_np example)
对已经自有程序,设置soft affinity的方式
2010-07-08 09:02:00 7399
原创 什么是cookieless domain?
在网页优化中有一种优化方式,简称cookieless domain,这是一种是将网页中静态的文本,图片等的域名和主域名相区别开的方法。
2010-07-07 09:51:00 1105
原创 中文分词方法的基本方法和持续改进的思路
在实际中需要注意以下几点,改善分词质量(1)地名的识别和处理(2)人名的识别和处理(和地名不同,人名的难点是无法做得将所有人民作为词典中的词来存储)(3)数字(含中文数字),页码等的识别(4)词性识别,语气词,助词等(5)分词出现单字的处理
2010-07-07 09:29:00 1610
原创 UUzone倒下了 360quan也倒下了 下一个是谁?(转)
7月6日消息,又一个SNS网站倒闭了,这不是第一家,也不是最后一家。上周,创立三年的社交网站360圈(360quan.com)以关闭的结局宣告国内SNS领域又一泡沫的破灭。 2007年,UUzone成为国内SNS领域失败的先例,其失败主因和360圈类似:两者同为资金投入的断链。
2010-07-06 16:00:00 1148
Topology-Calculation-Tuning本学期一份组内报告
2011-01-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人