2010年09月_shineHoo

转载操作系统——内存管理综述

一页式管理 页式管理的基本原理将各进程的虚拟空间划分成若干个长度相等的页(page)，页式管理把内存空间按页的大小划分成片或者页面（page frame），然后把页式虚拟地址与内存地址建立一一对应页表，并用相应的硬件地址变换机构，来解决离散地址变换问题。页式管理采用请求调页或预调页技术实现了内外存存储器的统一管理。 它分为 1 静态页式管理。静态分页管理的第一步是为要求内存的作业或进程分配足够的页面。系统通过存储页面表、请求表以及页表来完成内存的分配工作。静

2010-09-20 21:28:00 1679

转载几种常见页面置换算法分析

评价一个算法的优劣,可通过在一个特定的存储访问序列（页面走向）上运行它，并计算缺页数量来实现。 1 先入先出法（FIFO） 最简单的页面置换算法是先入先出（FIFO）法。这种算法的实质是，总是选择在主存中停留时间最长（即最老）的一页置换，即先进入内存的页，先退出内存。理由是：最早调入内存的页，其不再被使用的可能性比刚调入内存的可能性大。建立一个FIFO队列，收容所有在内存中的页。被置换页面总是在队列头上进行。当一个页面被放入内存时，就把它插在队尾上。 这

2010-09-13 21:59:00 16888

转载谷歌三大核心技术——BigTable中文版

Google's BigTable 原理（翻译） 题记：google 的成功除了一个个出色的创意外，还因为有 Jeff Dean 这样的软件架构天才。 ------ 编者 官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的一个用来处理大数据量的系统。这种系统适合处理半结构化的数据比如 RSS 数据源。

2010-09-09 12:12:00 3673

转载谷歌三大核心技术——MapReduce中文版

MapReduce:超大机群上的简单数据处理摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些细节:分割输入数据,在机群上的调度,机器的错误处理,管理机器之间必要

2010-09-09 12:02:00 1544

转载 Amazon——Elastic Compute Cloud（EC2）

《云计算》教材试读：弹性计算云EC2 4.3 弹性计算云EC2 亚马逊弹性计算云服务（Elastic Compute Cloud，EC2）是亚马逊提供的云计算环境的基本平台。网络数据流的流向非常复杂，企业和个人的网络平台所需的计算能力也随着这些流量增加在不断地变化着。利用亚马逊提供的各种应用接口，用户可以按照自己的需求随时创建、增加或删除实例。通过配置实例数量可以保证计算能力随着通信量的变化而变化。这样在提高访问者用户体验的同时也降低了成本，对于中小企业来说是非常有利的。本节主要讲解

2010-09-09 09:09:00 7007 1

转载云计算——判断是不是云计算的三条标准

刘鹏演讲实录： 到底什么是云计算？这是大家比较关注的一个问题。现在我们发现了有很多种不同的说法，到底什么是云，什么不是云，让人很费解。有人讲公有云是云，私有云不是云；还有人说支持虚拟化叫云，不支持虚拟化不叫云，但是Google不支持虚拟化，而我们都认为Google是云；还有人讲有1000台服务器是云，好像999台就不是云；还有人讲会下雨的叫云，不会下雨的不是云，呵呵，开个玩笑。现在有个别高性能计算中心，什么都没变，就是名字改成叫云计算中心啦。为什么有那么多人要打着云

2010-09-09 09:07:00 3634

转载 Google——MapReduce(2)

《云计算》教材试读：并行数据处理MapReduce 收藏2.2 并行数据处理MapReduce MapReduce是Google提出的一个软件架构，是一种处理海量数据的并行编程模式，用于大规模数据集（通常大于1TB）的并行运算。“Map（映射）”、“Reduce（化简）”的概念和主要思想，都是从函数式编程语言和矢量编程语言借鉴来的[5]。正是由于MapReduce有函数式和矢量编程语言的共性，使得这种编程模式特别适合于非结构化和结构化的海量数据的搜索、挖掘、分析与机器智能学习等。2.

2010-09-09 09:01:00 3438

转载 Google——Google File System（GFS）

Google文件系统（Google File System，GFS）是一个大型的分布式文件系统。它为Google云计算提供海量存储，并且与Chubby、MapReduce以及Bigtable等技术结合十分紧密，处于所有核心技术的底层。由于GFS并不是一个开源的系统，我们仅仅能从Google公布的技术文档来获得一点了解，而无法进行深入的研究。当前主流分布式文件系统有RedHat的GFS[3]（Global File System）、IBM的GPFS[4]、Sun的Lustre[5]等。这些系统通常用于高性能计

2010-09-09 08:57:00 17355

转载 Google——Chubby

Google利器之Chubby 收藏 写完了Google Cluster，该轮到Chubby了。 参考文献： [1] The Chubby lock service for loosely-coupled distributed systems [2] Paxos Made Simple 声明 文中大部分的观点来自于文献[1]中的描述，但也夹杂了部分本人自己的理解，所以不能保证本文的正确性。真

2010-09-08 20:34:00 2657

转载 Google——Google Cluster

最近花了不少功夫在Google发布的这些文章上。Google这几年发布了不少的论文来介绍它底层分布式的计算平台，其中最重要的有5篇，其中包括了大名鼎鼎的MapReduce，GFS，也有不那么出名的chubby： GoogleCluster： http://research.google.com/archive/googlecluster.html Chubby：http://labs.google.com/papers/chubby.html GFS

2010-09-08 20:27:00 1589

转载 C/C++——strcmp函数实现

函数原型：int strcmp(const char *dest, const char *source) ; 返回值：返回整数值，如果dest > source,则返回值大于0，如果dest = source,则返回值等于0，如果dest < source ,则返回值小于0。字符大小是按照字符的字典序列进行排列的。 参数说明：都是以''/0''为结束符的字符串 实现; int strcmp(const char *d

2010-09-07 13:56:00 5590

转载随机洗牌算法

1. for i:=1 to n do swap(a[i], a[random(1,n)]); // 凑合，但不是真正随机 2. for i:=1 to n do swap(a[i], a[random(i,n)]); // 真正的随机算法 其中，random(a,b)函数用于返回一个从a到b（包括a和b）的随机整数。 2）的时间复杂度O（n），空间复杂度O(1); 参见： http://hi.baid

2010-09-02 21:05:00 1110

转载数据结构与算法——常见排序算法的稳定性分析和结论

这几天笔试了好几次了，连续碰到一个关于常见排序算法稳定性判别的问题，往往还是多选，对于我以及和我一样拿不准的同学可不是一个能轻易下结论的题目，当然如果你笔试之前已经记住了数据结构书上哪些是稳定的，哪些不是稳定的，做起来应该可以轻松搞定。本文是针对老是记不住这个或者想真正明白到底为什么是稳定或者不稳定的人准备的。 首先，排序算法的稳定性大家应该都知道，通俗地讲就是能保证排序前2个相等的数其在序列的前后位置顺序和排序后它们两个的前后位置顺序相同。在简单

2010-09-02 14:47:00 1217

转载 Bloom Filter概念和原理

Bloom Filter概念和原理 焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Fi

2010-09-01 13:25:00 641

转载大数据量、海量数据处理方法总结

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom filter 适用范围：可

2010-09-01 10:59:00 1910

shineHoo的专栏