hadoop
文章平均质量分 69
橘子oly
hhhh~越努力越幸运~~~~
展开
-
hadoop环境搭建
一、hadoop环境搭建基本可以分为这么几步:1.添加hadoop用户,并为其添加管理员权限2.安装ssh(hadoop用ssh通信)3.安装java(hadoop基于java)4.安装hadoop,并配置相应的java环境5.以上,单机环境搭建完成。下面是伪分布式环境搭建1.conf目录下创建配置文件2.格式化hdfs3.start-all.sh,启动hado原创 2015-11-14 20:49:22 · 470 阅读 · 0 评论 -
Hadoop之Text与String的异同
String常量,创建之后不可修改字符串连接是通过StringBuilder(或StringBuffer)类实现的 【区别:StringBuilder是非线程安全的,这也使其性能比StringBuffer要高(少synchroned方法)】String: UTF-16格式Unicode为解决传统字符编码方案的局限而产生Unicode方案包括: 给所有字符指定一个唯一对应的数字将字符原创 2017-03-04 20:47:14 · 1479 阅读 · 0 评论 -
Linux下打包运行MR程序
转载自 使用命令行编译打包运行MR程序网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java转载 2017-03-03 10:38:23 · 1270 阅读 · 0 评论 -
Hadoop_eclipse开发配置
参考这两篇文章http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlhttp://www.cnblogs.com/simplestupid/p/4681144.html转载 2017-03-02 16:43:16 · 381 阅读 · 0 评论 -
Hadoop实战(五) 高阶MapReduce
本章重点概括 TODO链接MapReduce作业顺序链接这种任务可以手动的逐个执行,但生成自动化执行序列的方式更为便捷。 mapreduce-1 | mapreduce-2 | mapreduce-3 | … 具复杂依赖的作业链接(非线性链接)通过Job和JobControl类来管理依赖JobControl类负责管理并监控作业的执行JobControl对象使用addJob()方法向其中原创 2017-02-28 11:08:49 · 545 阅读 · 0 评论 -
Hadoop2.2.0源码系列--Job类
获取Job对象Job的构造函数最直接的获取Job对象的方式@Deprecated public Job() throws IOException { this(new Configuration()); } @Deprecated public Job(Configuration conf) throws IOException { this(new JobConf(c原创 2017-02-28 10:18:50 · 1058 阅读 · 0 评论 -
Hadoop实战(四) 编写MR程序
Hadoop实战(四) 编写MR程序样例数据集1. 下载数据集Address: http://www.nber.org/patents/ wget http://www.nber.org/patents/acite75_99.zip wget wget http://www.nber.org/patents/apat63_99.zip解压: unzip acite75_99.zip上传原创 2017-02-28 09:17:42 · 3749 阅读 · 0 评论 -
Hadoop实战(二) hadoop基本组成
一、Hadoop组件 通常我们所理解的狭义Hadoop构成分为HDFS分布式存储系统和MapReduce编程模型两部分,下面分别从这两个部分介绍。(一)HDFSHDFS是一个分布式文件系统,下面主要介绍如何操作该文件系统。1.基本命令行操作hadoop fs -help基本的操作都遵循这个模式,比如常用的 hadoop fs -lshadoop fs -m原创 2016-12-08 16:26:34 · 2262 阅读 · 0 评论 -
hadoop实战(一) hadoop基本概念
一、理解Hadoop Hadoop_wiki上定义,Apache Hadoop is an open-source software framework used for distributed storage and processing of very large data sets. 就是说Hadoop是分布式的数据处理框架。二、理解MapRed原创 2016-12-07 17:38:46 · 677 阅读 · 0 评论 -
hadoop入门--伪分布式详解
1.首先开启sshssh localhost2.若是初次启动hadoop,首先需要格式化namenode,命令如下:bin/hadoop namenode -format3.启动hadoop守护进程,包括namenode,secondarynamenode,datanode,jobtracker,tasktraker五个。bin/start-all.sh或是直接运行相应文件原创 2015-11-16 21:03:30 · 970 阅读 · 0 评论 -
Hadoop实战之课后题--分析web服务器的日志文件
任务统计每个IP地址的访问次数查找访问数最多的前K个IP地址分析:任务1很简单,简单的求和问题,用来重新熟悉hadoop MR程序的写法。 优化:使用combiner()减少网络中的流量传输;这个例子中combiner和reducer的逻辑相同,两种使用同一个reduce即可。代码贴在附录里了,注释详细,可查看~任务2是一个TopK的问题,要点有以下几个: 使用TreeMap来得到原创 2017-03-03 16:34:09 · 856 阅读 · 0 评论