- 博客(3)
- 资源 (5)
- 收藏
- 关注
原创 关于缩减库
不管是gfs论文里边写的也好,hadoop里边的实现也好,貌似都没有提到重复数据删除的事情。 爬虫从网上抓下来数据,写入文件系统,很多网页是重复抓取的(更新网页)。 1. 都写在一块的,无疑会浪费很多的空间。而我看论文上的讲述,文件块尽量分布在不同的机器上。重复的数据不会存储在一个机器上。没有充分利用机器内部的I/O。为了缩减库,把整个文件读一遍,写一遍,机器间的带宽无疑是会成为
2009-11-28 10:36:00 764
原创 有所为
没有完美的资源。世间的事情怎可能样样称心。不平?抱怨?幻想?逃避?都是没有用的。我们能拥有的条件就是现在的情况。不要直盯着白板上的那个黑点,而忽略了整个的白板。家家有本难念的经。家家也有别人不可比拟的优势。看到优势,把握优势,规避不可能。 我存在的价值在于我做了什么,推动了什么东西的发展。如果能把别人做不好,做不了的事情做好,那才能更好的体现我存在的价值。
2009-11-27 22:51:00 667
原创 有感于不会
世界上的知识太多了,有十个脑袋也不一定能够学的完,记得清!不会,哪有什么丢人。慌张是不必要的,只不过,先等等,看看不会的里边,有没有用自己的知识体系结构能够解释的了得。有解释的了能不能有逻辑的编排一下内容的。。。。不过,基础只是要过硬的。长久不用,忘了!都忘了?基本的思路和方法是不能忘的。什么都忘了那跟没学过有什么区别。 把脑袋变成硬盘吗?人云亦云吗?盲从吗?现在从
2009-11-27 22:37:00 635
mysql客户端API封装
2008-01-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人