- 博客(21)
- 资源 (3)
- 收藏
- 关注
转载 mapreduce 全局排序
1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个14
2016-07-31 19:13:30 2254
转载 MapReduce的排序和二次排序
自己学习排序和二次排序的知识整理如下。1.Hadoop的序列化格式介绍:Writable2.Hadoop的key排序逻辑3.全排序4.如何自定义自己的Writable类型5.如何实现二次排序1.Hadoop的序列化格式介绍:Writable要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和
2016-07-31 16:44:15 538
转载 Hadoop自定义排序和自定义数据类型使用(setSortComparatorClass和setGroupingComparatorClass)
1 Mapper[java] view plain copy public class SortMapper extends Mapper{ public TextInt textInt = new TextInt(); public IntWritable intp = new IntWritable(0)
2016-07-31 16:02:10 1228
原创 eclipse 中的快捷键
行上下移动:Alt+上/下查看类的继承关系: Ctrl+T产看类的方法: Ctrl+O生成局部变量:Shift+Alt+L
2016-07-31 11:37:13 453
转载 Hadoop Reducer个数设置
在默认情况下,一个MapReduce Job如果不设置Reducer的个数,那么Reducer的个数为1。具体,可以通过JobConf.setNumReduceTasks(int numOfReduceTasks)方法来设置Reducer的个数。那么,如何确定Reducer的个数呢,Hadoop documentation 推荐了两个计算公式:0.95 * NUMBER_OF_N
2016-07-31 11:31:06 1020
转载 linux中的find命令——查找文件名
1.在某目录下查找名为“elm.cc”的文件find /home/lijiajia/ -name elm.cc 2.查找文件名中包含某字符(如"elm")的文件find /home/lijiajia/ -name '*elm*'find /home/lijiajia/ -name 'elm*'find /home/lijiajia/ -name '*elm' 3.根
2016-07-30 22:18:24 867
转载 运行Maven clear 失败
eclipse中使用maven插件的时候,运行run as maven build的时候报错-Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 直接的解决方法:使用低版本的maven
2016-07-27 00:05:47 2614
原创 计算机绘图,缩放
计算机绘图缩放有两种:1、缩放数据图的大小不变,而图展示的区域的大小在变化。实现原理:修改图的比例尺,计算区域范围,设置轴的起止值和结束值,进行绘制2、缩放视口:图中的区域不变,图的大小在变,但是图上的内容不发生变化,如比例尺值,坐标轴上的值。缩放数据,可以想象成,你站在一张纸前面,你在这张纸上,绘制河北地图,绘制中国地图,绘制世界地图......缩放视口,可以想象
2016-07-26 12:19:41 631
转载 junit4单元测试的注释使用说明
junit4单元测试的使用说明 右键项目->properties->Java Build Path->Libraies->Add Library->JUnit->next->JUnit 4->Finish 左键要进行测试的类(比如 Hourse.java)->junit test case ->选择所要测试的方法->finish->生成一个要测试的类+Test.java的新类(Ho
2016-07-25 22:27:32 1877
转载 MFC ViewPort与Window 坐标转换
MFC提供了一个框架性的打印和打印预览功能代码,它的基本思想是将实际显示和打印文档的代码合二为一,即都由此文档关联的CView中的OnDraw(CDC *pDC)来处理,由MFC框架根据用户的操作来决定传进来的pDC是指向屏幕还是打印机,当pDC指向屏幕设备,就在屏幕上显示文档,当指向打印机设备时就打印文档。这些都很好理解,但是,当我们要打印预览时,传进来的pDC就有些特别了。因为打印预览是在屏幕
2016-07-25 17:46:50 1028
转载 Coursera为什么喜欢Scala
Coursera是由斯坦福大学的计算机科学教授吴恩达和达芙妮·科勒联合创建的一个营利性的教育科技公司,其目的是与世界顶尖大学合作,在线提供免费的网络公开课程,让数以百万的学生都能够获得高质量的学术课程。最近该公司最初的Scala倡导者、基础设施工程师Brennan Saeta发表了一篇博文,解释了Coursera喜欢Scala的原因。Brennan Saeta表示在公司成立之后的两年中,他们的
2016-07-24 11:32:40 1110
转载 Google论文(1) GFS:Google文件系统 - 思维导图
Google文件系统是一个面向大规模分布式数据密集型应用的可扩展分布式文件系统.这里的思维导图作为个人的读书笔记。 参考资料:《google系列论文》- GFS
2016-07-21 13:36:50 1384
转载 Google论文系列(2) MapReduce
思想 map函数:处理一组key/value对进而生成一组key/value对的中间结果 reduce函数:将具有相同Key的中间结果进行归并 实现环境 普通带宽,上千台机器(失败变得正常),廉价硬盘,调度系统。执行过程文件划分master分派map和reduce任务执行map函数中间结果缓存和位置传
2016-07-21 13:33:10 560
原创 动态库的动态加载和静态加载
动态库的动态加载方式调用,里面定义的数据结构理论上只作为dll内部使用!在这种情况下,如果这个dll的导出函数参数有内部定义的数据类型,显然是违反低耦合性原则的,实际上这种情况下编写dll方应该提供.h、.lib和.dll文件给使用者的,即你不能以动态库的动态加载方式调用,而是以动态库的静态加载方式调用! 换句话说,一般的只提供dll和导出函数文档这种情况,其dll中的导出函数参数列表都应该
2016-07-19 09:18:21 1916
转载 四叉树空间索引原理及其实现
http://blog.csdn.net/zhouxuguang236/article/details/12312099今天依然在放假中,在此将以前在学校写的四叉树的东西拿出来和大家分享。四叉树索引的基本思想是将地理空间递归划分为不同层次的树结构。它将已知范围的空间等分成四个相等的子空间,如此递归下去,直至树的层次达到一定深度或者满足某种要求后停止分割。四叉树的结构比较简单,并且当空间数据
2016-07-18 15:08:06 848
转载 八叉树Octree
维基释义:八叉树(Octree)是一种用于描述三维空间的树状数据结构。八叉树的每个节点表示一个正方体的体积元素,每个节点有八个子节点,这八个子节点所表示的体积元素加在一起就等于父节点的体积。一般中心点作为节点的分叉中心。百度百科释义:八叉树(Octree)的定义是:若不为空树的话,树中任一节点的子节点恰好只会有八个,或零个,也就是子节点不会有0与8以外的数目。那么,这要用来做什
2016-07-18 14:56:20 2140
转载 布隆过滤器 -- 空间效率很高的数据结构
哈希 hash原理Hash (哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。一个应用是Hash table(散列表,也叫哈希表),是根据哈希值 (Key value) 而直接进行访问的数据结构。也就是说,它通过把哈希值映射到表中一个位置来访问记录,
2016-07-17 12:19:46 1089
转载 观察者设计模式
1. 概述 有时被称作发布/订阅模式,观察者模式定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象。这个主题对象在状态发生变化时,会通知所有观察者对象,使它们能够自动更新自己。2. 解决的问题 将一个系统分割成一个一些类相互协作的类有一个不好的副作用,那就是需要维护相关对象间的一致性。我们不希望为了维持一致性而使各类紧密耦合,这样会给维护、扩展和重用都带
2016-07-17 10:56:17 419
转载 Linux Make 命令详解
gcc是编译器 而make不是 make是依赖于Makefile来编译多个源文件的工具 在Makefile里同样是用gcc(或者别的编译器)来编译程序.gcc是编译一个文件,make是编译多个源文件的工程文件的工具。make是一个命令工具,是一个解释makefile中指令的命令工具。make就是一个gcc/g++的调度器,通过读入一个文件(默认文件名为Makefile或者makefile),执行一
2016-07-07 12:50:01 1543
转载 Linux 下 Make 命令
Linux 下 make 命令是系统管理员和程序员用的最频繁的命令之一。管理员用它通过命令行来编译和安装很多开源的工具,程序员用它来管理他们大型复杂的项目编译问题。本文我们将用一些实例来讨论 make 命令背后的工作机制。Make 如何工作的对于不知道背后机理的人来说,make 命令像命令行参数一样接收目标。这些目标通常存放在以 “Makefile” 来命名的特殊文件中,同时文件也
2016-07-07 12:47:06 3215
转载 C++ 字符串转换为浮点数时的精度问题
#include /*库文件包含*/#include /*用于字符串操作*/#include /*用于exit函数*//**************************************************************************int check(char *c)输入参数: char *c: 输入的字符串返回参数: 0:字符串中有不符合规定
2016-07-01 10:15:20 4354
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人