hadoop
燃烧的岁月_
coding
展开
-
hadoop key和value 分隔符号设置
Configuration conf = new Configuration(); conf.set("mapred.textoutputformat.separator", ",");原创 2016-05-29 15:24:46 · 1751 阅读 · 0 评论 -
Hadoop日志分析系统
原创 2016-07-02 14:37:04 · 1463 阅读 · 0 评论 -
Hadoop HDFS读流程
原创 2016-06-16 18:15:09 · 310 阅读 · 0 评论 -
hadoop Hdfs写流程
原创 2016-06-16 18:20:46 · 302 阅读 · 0 评论 -
计算框架MR
原创 2016-06-18 13:29:04 · 1649 阅读 · 1 评论 -
MR四个数据处理阶段
原创 2016-06-18 14:05:41 · 2932 阅读 · 0 评论 -
Hadoop计算框架shuffle过程详解
原创 2016-06-18 20:24:38 · 460 阅读 · 0 评论 -
Hadoop 词频权重公式
原创 2016-06-19 03:33:40 · 1448 阅读 · 0 评论 -
HDFS 2.x HA机制
原创 2016-06-19 14:17:17 · 460 阅读 · 0 评论 -
hadoop 集群布局
NNDNZKZKFCJNRMDMNode11 11 1 Node211111 1Node3原创 2016-06-19 19:57:59 · 276 阅读 · 0 评论 -
hadoop 排序、分区、分组实例
data.txt1949-10-01 14:21:02/t34℃1949-10-02 14:01:02/t36℃1950-01-01 11:21:02/t32℃1950-10-01 12:21:02/t37℃1951-12-01 12:21:02/t23℃1950-10-02 12:21:02/t41℃1950-10-03 12:21:02/t27℃1951-07-原创 2016-06-21 12:21:30 · 887 阅读 · 0 评论 -
hadoop二次排序
1.二次排序概念:首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果 。如: 输入文件:20 21 50 51 50 52 50 53 50 54 60 51 60 53 60 52 60 56 60 57 70 58 60 61 70 54 70 55 70 56原创 2016-08-08 11:31:47 · 284 阅读 · 0 评论 -
hadoop面试百题
第1题、简要描述如何安装配置一个apache开源hadoop,只描述即可,无需列出完整步骤。能列出步骤更好。1、创建 hadoop帐户。 2、setup.改IP。 3、安装java,并修攕 /etc/profile文件,配置 java的环境变量。 4、修改Host文件域名。 5、安装SSH,配置无密钥通信。 6、解压hadoop。 7、配置conf文件? hadoop-原创 2016-08-08 16:06:02 · 1195 阅读 · 0 评论 -
2015Hadoop数据处理实战视频教程笔记
2015Hadoop数据处理实战视频教程笔记hadoop_hdfs_分布式文件系统Hadoop是Google的集群系统的开源实现-Google集群系统:GFS(Google File System)、MapReduce、BigTable-Hadoop主要由HDFS(hadoop distributed File System Hadoop分布式文件系统)、MapReduce和Hba原创 2016-06-22 02:17:58 · 3335 阅读 · 0 评论 -
ssh 免登陆
生成证书公私钥的步骤:ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keyscat ~/.ssh/id_dsa.pub | ssh [email protected] 'cat >> ~/.ssh/authorized_keys'注意的是:原创 2016-04-11 01:13:39 · 359 阅读 · 0 评论 -
hive和hbase表数据同步
第一步:建立book_localcreate external table book_load (id int,bcode String,zcode String,bname String,author String,publish String,fcode String,floor String) row format delimited fields t原创 2016-04-21 03:21:49 · 1915 阅读 · 0 评论 -
hadoop 多个mapreduce在java中串起来执行
注意:不建议这样做,用shell脚本把多个mr按顺序执行原创 2016-04-14 05:00:06 · 2189 阅读 · 0 评论 -
hbase和虚拟机开发
import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase原创 2015-03-03 01:57:09 · 487 阅读 · 0 评论 -
Hadoop+Spark与现有BI平台的整合
原创 2016-03-17 13:55:42 · 2971 阅读 · 0 评论 -
hadoop无法打印日志
报错:log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics在src下新建log4j.propertieslog4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog原创 2016-02-24 22:13:20 · 2123 阅读 · 0 评论 -
hadoop 2.4编译、安装
1、hadoop-2.4.0版本编译环境准备:操作系统:Red Hat5.8 64bit内核版本2.6.18-308.el51.1安装JDKJDK版本:jdk1.7.0_60下载jdk-7u60-linux-x64.gz,并解压tar –zvxf jdk-7u60-linux-x64.gz配置环境变量export PATHexport JAVA_HOME=原创 2016-04-02 19:26:59 · 434 阅读 · 0 评论 -
hadoop笔记
hdfs实现思想: 1、hdfs是通过分布式集群来存储文件 2、文件存储到hdfs集群中去的时候是被切分成block的 3、文件的block存放在若干台datanode节点上 4、hdfs文件系统中的文件与真实的block之间有映射关系,由namenode管理原创 2016-04-04 00:50:02 · 223 阅读 · 0 评论 -
hadoop学习笔记
hadoop学习参考:转载 2016-04-05 03:21:27 · 312 阅读 · 0 评论 -
遍历Text字符
package ncdc;import java.nio.ByteBuffer;import org.apache.hadoop.io.Text;public class TestIterator {public static void main(String[] args){Text t = new Text("\u0041\u00DF\u6771\u原创 2016-02-28 23:10:47 · 486 阅读 · 0 评论 -
mapper_reducer 笔记
package com.zyf.mr.wordcount;import java.io.IOException;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.io.LongWritable;原创 2016-04-09 20:20:02 · 795 阅读 · 0 评论 -
MapperReduce原理
job提交流程原创 2016-04-10 02:08:33 · 2873 阅读 · 0 评论 -
MR程序的几种提交运行模式
MR程序的几种提交运行模式本地模型运行1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdat转载 2016-04-10 03:00:24 · 2614 阅读 · 0 评论 -
hadoop的map的数量
hadoop的map的数量1、map task 的并发数是由切片数量决定的,由多少个切片,就启动多少个map task2、切片是一个逻辑的概念,指的就是文件中数据的偏移量范围3、切片的具体大小应该根据所处理的文件的大小来调整原创 2016-04-13 22:42:32 · 635 阅读 · 0 评论 -
hadoop的shuffle
Shuffle1、每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一但达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。2、写磁盘前,要partition,sort。如果有combine,combine排序后数据。原创 2016-04-13 22:43:17 · 294 阅读 · 0 评论 -
提交任务的时候获取切片split信息的流程
//遍历本次job所要处理的文件对每一个文件规划切片,将每一个切片信息封装到一个InputSplit对象中,再add到 split的arraylist中原创 2016-04-14 02:19:12 · 536 阅读 · 0 评论 -
hadoop2.4.1伪分布配置
core-site.xml Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at原创 2016-04-11 01:21:05 · 299 阅读 · 0 评论 -
浅谈Hive vs. HBase
摘要:对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 Hive是什么?Apache Hive是一个构建于Had原创 2016-04-27 18:17:08 · 278 阅读 · 0 评论 -
hadoop实例网址
http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html转载 2016-12-14 04:48:37 · 295 阅读 · 0 评论