- 博客(13)
- 资源 (2)
- 收藏
- 关注
转载 Hadoop0.20更新笔记
本节向大家介绍一下Hadoop0.20更新的内容,在学习Hadoop的过程中你可能会遇到这方面的问题,在这里和大家分享一下,相信通过本节的介绍大家对Hadoop0.20更新有一定的认识。下面是详细介绍。Hadoop0.20更新笔记最近学习hadoop0.20.1,网上找到一篇文章《What’sNewinHadoopCore0.20》,非完整的给翻译了一下,为以后检索方便,发上来保存一份。如
2012-03-30 21:20:27 488
原创 hadoop中联结不同来源数据
有时可能需要对来自不同源的数据进行综合分析:如下例子:有Customers文件,每个记录3个域:Custom ID, Name, Phone Number Customers Orders 1,Stephanie Leung,555-555
2012-03-29 23:46:52 1122 1
原创 public,protected,private问题
一直没扯清这几个访问限定符,这次用vs2010下用代码实验下,记录如下:class Base{public: Base(string book_a = " ", double price_a = 0.0): book(book_a), price(price_a) {}protected: double price;private: string book;}
2012-03-29 20:42:50 508
转载 i++,++i, i=i+1 vs编译器上的深入研究
今天看到一个有趣的输出,遂发现这篇文章:http://www.cnblogs.com/confide/archive/2012/03/08/2385739.html我自己的例子是int i = 10; cout 目测输出时 10 10 11 11;实际输出了 9 10 10 10 。使用flush发现也不是缓冲区的问题i++,++i, i=i+1 vs编译器上的深入研究
2012-03-29 20:09:58 829
转载 Bloom Filter概念,原理,代码。。
1. BloomFilter概念与原理:http://blog.csdn.net/jiaomeng/article/details/1495500 (从数学上分析了错误率,最优hash函数,位数组大小的选择) BloomFilter介绍:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html2. BloomFilt
2012-03-29 17:20:58 1112
原创 高阶MapReduce(1)-链接多个MapReduce作业
许多复杂的任务需要分解成简单任务,每个任务通过MapReduce作业来完成。Hadoop支持将多个MapReduce链接成更大得作业。1.顺序链接MapReduce作业类似于Unix中的管道:mapreduce-1 | mapreduce-2 | mapreduce-3 ......每一个阶段创建一个job,并将当前输入路径设为前一个的输出。在最后阶段删除链上生成的中间数据
2012-03-29 16:04:01 7781
原创 使用combiner提升性能
在上一节的AverageByAttributeMapper.py和AverageByAttributeReducer.py中计算平均值,由mapper读取,在网络上进行洗牌,reducer计算每个键的平均值。可以看到至少有两个效率瓶颈:如果有10亿条记录,mapper会生成10亿个 键值对 在网络上洗牌,实际上,在求最大值时,mapper只需要输出键中最大的一个。求平均值则可以重新定义算法
2012-03-29 15:11:51 1039
原创 hadoop的Streaming学习(续)
3.用Streaming处理键值对默认情况下,Streaming使用\t分离记录中得键和值,当没有\t时,整个记录被视为键,值为空白文本。不同于AttributeMax.py为每个键寻找最大值,这次我们试着为每个国家找到专利声明数的平均值。(Hadoop包含得名为Aggregate包,可以为每个键寻找最大值) (1)Streaming中得mapper通过STDIN读取一个 分片,并
2012-03-28 23:12:11 844
原创 Hadoop的Streaming学习
<!--@page {margin:2cm}p {margin-bottom:0.21cm}-->Haoop支持用其他语言来编程,需要用到名为Streaming的通用API。Streaming主要用于编写简单,短小的MapReduce程序,可以通过脚本语言编程,开发更快捷,并充分利用非Java库。HadoopStreaming使用Unix中的流与程序交互
2012-03-28 21:12:40 584
转载 用 Eclipse 平台进行 C/C++ 开发——CDT的使用
C 和 C++ 语言都是世界上最流行且使用最普遍的编程语言,因此 Eclipse 平台(Eclipse Platform)提供对 C/C++ 开发的支持一点都不足为奇。因为 Eclipse 平台只是用于开发者工具的一个框架,它不直接支持 C/C++;它使用外部插件来提供支持。本文将向您演示如何使用 CDT — 用于 C/C++ 开发的一组插件。CDT 项目致力于为 Eclipse 平台提供功能完全
2012-03-19 22:28:15 882
原创 Linux截图工具KSapshot
一个很不错得截图工具~~KSnapshot是KDE集成桌面环境自带的截图工具,不过在GNOME集成桌面环境下也可以安装和使用它。我们可以通过新立得软件包管理器或使用apt-get命令来安装它。假设使用命令行方式来安装,打开一个GNOME终端窗口,在终端窗口中输入如下命令:sudo apt-get install ksnapshot命令执行后,将在线下载并安装KSnapshot。
2012-03-15 18:29:26 699
原创 eclipse安装hadoop插件及配置
第一次使用hadoop,另外eclipse也不太熟悉,现在把自己在安装过程中得琐碎问题记录下来。eclipse版本:eclipse-jee-indigo-SR2-linux-gtk.tar.gzhadoop版本:hadoop-0.20.203.0本文前提是,你已经正确安装了hadoop-0.20.203.0,hadoop伪分布模式的安装过程网上有很多。eclipse下载解压后,直接
2012-03-15 17:46:39 3710
原创 ssh使用记录
1.安装OpenSSH服务器 一般用ps -e查看会发现只有ssh-agent进程. 使用sudo apt-get install ssh 安装ssh服务器,结束后使用ps -e | grep ssh会看到多了一个sshd进程,这就是ssh服务器进程2.ssh配置 OpenSSH守护进程在Red Hat中使用/etc/ssh/sshd_config配置文件,一般使用
2012-03-15 15:48:22 2652
linux设备驱动开发详解 宋宝华版
2011-08-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人