2016年04月_燃烧的岁月_

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 RDD

RDD的具体描述RDD（弹性数据集）是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合，它提供了一种只读、只能有已存在的RDD变换而来的共享内存，然后将所有数据都加载到内存中，方便进行多次重用. a.他是分布式的，可以分布在多台机器上，进行计算。 b.他是弹性的，计

2016-04-30 13:31:47 344

原创浅谈Hive vs. HBase

摘要：对于刚接触大数据的用户来说，要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析，以作抛砖引玉之用。对于刚接触大数据的用户来说，要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析，以作抛砖引玉之用。 Hive是什么？ Apache Hive是一个构建于Had

2016-04-27 18:17:08 305

原创 hive和hbase表数据同步

第一步：建立book_local create external table book_load ( id int, bcode String, zcode String, bname String, author String, publish String, fcode String, floor String ) row format delimited fields t

2016-04-21 03:21:49 1946

原创文件读取

import scala.io.Source object FileRead { def main(args:Array[String]){ val file = Source.fromFile("C:/Users/root/Desktop/hadoop_text/hadoop/WCMapper.java"); for(line println(

2016-04-18 01:29:12 254

原创 Array

def main(args: Array[String]):Unit = { val pair = (100,"Scala","Spark") println(pair._1) println(pair._2) println(pair._3) } val ages = Map("Rocky"->27,"Spark"->5) for

2016-04-18 01:23:09 233

原创 hadoop 多个mapreduce在java中串起来执行

注意：不建议这样做，用shell脚本把多个mr按顺序执行

2016-04-14 05:00:06 2221

原创提交任务的时候获取切片split信息的流程

//遍历本次job所要处理的文件对每一个文件规划切片，将每一个切片信息封装到一个InputSplit对象中，再add到 split的arraylist中

2016-04-14 02:19:12 561

原创 hadoop的shuffle

Shuffle 1、每个map有一个环形内存缓冲区，用于存储任务的输出。默认大小100MB(io.sort.mb属性),一但达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。 2、写磁盘前，要partition，sort。如果有combine，combine排序后数据。

2016-04-13 22:43:17 319

原创 hadoop的map的数量

hadoop的map的数量 1、map task 的并发数是由切片数量决定的，由多少个切片，就启动多少个map task 2、切片是一个逻辑的概念，指的就是文件中数据的偏移量范围 3、切片的具体大小应该根据所处理的文件的大小来调整

2016-04-13 22:42:32 652

原创 linux CentOS64安装中文输入法

sudo yum install "@Chinese support"

2016-04-11 03:03:32 637

原创 linux 时间配置

1、查看当前使用的时区: cat /etc/sysconfig/clock 2、,先删除旧的时区配置： rm /etc/localtime 3、,软链新的时区配置： ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 4、同步时间： /usr/sbin/ntpdate us.pool.ntp.org； /usr/sbin/ntp

2016-04-11 02:51:58 367

原创 hadoop2.4.1伪分布配置

core-site.xml Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at

2016-04-11 01:21:05 313

原创 ssh 免登陆

生成证书公私钥的步骤： ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys cat ~/.ssh/id_dsa.pub | ssh root@192.168.1.202 'cat >> ~/.ssh/authorized_keys' 注意的是：

2016-04-11 01:13:39 368

转载 MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行 1/在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下（c:/wc/srcdata/） ----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdat

2016-04-10 03:00:24 2623

原创 MapperReduce原理

job提交流程

2016-04-10 02:08:33 2905

原创 mapper_reducer 笔记

package com.zyf.mr.wordcount; import java.io.IOException; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.io.LongWritable;

2016-04-09 20:20:02 830

转载 hadoop学习笔记

hadoop学习参考：

2016-04-05 03:21:27 342

原创 SSH 免登陆配置

ssh免登陆配置： 1、本机生成秘钥：生成证书公私钥的步骤： ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 2、拷贝到对方的机器上： cat ~/.ssh/id_dsa.pub | ssh root@192.168.1.201 'cat

2016-04-04 03:18:16 331

原创 hadoop笔记

hdfs实现思想： 1、hdfs是通过分布式集群来存储文件 2、文件存储到hdfs集群中去的时候是被切分成block的 3、文件的block存放在若干台datanode节点上 4、hdfs文件系统中的文件与真实的block之间有映射关系，由namenode管理

2016-04-04 00:50:02 228

原创 hadoop 2.4编译、安装

1、hadoop-2.4.0版本编译环境准备: 操作系统：Red Hat5.8 64bit 内核版本2.6.18-308.el5 1.1安装JDK JDK版本：jdk1.7.0_60 下载jdk-7u60-linux-x64.gz，并解压tar –zvxf jdk-7u60-linux-x64.gz 配置环境变量 export PATH export JAVA_HOME=

2016-04-02 19:26:59 465

原创 Java 环境变量参数

JAVA_HOME D:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60 Path D:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60\bin CLASSPATH D:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60\lib;D:\Pr

2016-04-02 01:44:15 726