- 博客(21)
- 资源 (27)
- 收藏
- 关注
原创 RDD
RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用. a.他是分布式的,可以分布在多台机器上,进行计算。 b.他是弹性的,计
2016-04-30 13:31:47 344
原创 浅谈Hive vs. HBase
摘要:对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 Hive是什么? Apache Hive是一个构建于Had
2016-04-27 18:17:08 305
原创 hive和hbase表数据同步
第一步:建立book_local create external table book_load ( id int, bcode String, zcode String, bname String, author String, publish String, fcode String, floor String ) row format delimited fields t
2016-04-21 03:21:49 1946
原创 文件读取
import scala.io.Source object FileRead { def main(args:Array[String]){ val file = Source.fromFile("C:/Users/root/Desktop/hadoop_text/hadoop/WCMapper.java"); for(line println(
2016-04-18 01:29:12 254
原创 Array
def main(args: Array[String]):Unit = { val pair = (100,"Scala","Spark") println(pair._1) println(pair._2) println(pair._3) } val ages = Map("Rocky"->27,"Spark"->5) for
2016-04-18 01:23:09 233
原创 提交任务的时候获取切片split信息的流程
//遍历本次job所要处理的文件 对每一个文件规划切片,将每一个切片信息封装到一个InputSplit对象中,再add到 split的arraylist中
2016-04-14 02:19:12 561
原创 hadoop的shuffle
Shuffle 1、每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一但达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。 2、写磁盘前,要partition,sort。如果有combine,combine排序后数据。
2016-04-13 22:43:17 319
原创 hadoop的map的数量
hadoop的map的数量 1、map task 的并发数是由切片数量决定的,由多少个切片,就启动多少个map task 2、切片是一个逻辑的概念,指的就是文件中数据的偏移量范围 3、切片的具体大小应该根据所处理的文件的大小来调整
2016-04-13 22:42:32 652
原创 linux 时间配置
1、查看当前使用的时区: cat /etc/sysconfig/clock 2、,先删除旧的时区配置: rm /etc/localtime 3、,软链新的时区配置: ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 4、同步时间: /usr/sbin/ntpdate us.pool.ntp.org; /usr/sbin/ntp
2016-04-11 02:51:58 367
原创 hadoop2.4.1伪分布配置
core-site.xml Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at
2016-04-11 01:21:05 313
原创 ssh 免登陆
生成证书公私钥的步骤: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys cat ~/.ssh/id_dsa.pub | ssh root@192.168.1.202 'cat >> ~/.ssh/authorized_keys' 注意的是:
2016-04-11 01:13:39 368
转载 MR程序的几种提交运行模式
MR程序的几种提交运行模式 本地模型运行 1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdat
2016-04-10 03:00:24 2623
原创 mapper_reducer 笔记
package com.zyf.mr.wordcount; import java.io.IOException; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.io.LongWritable;
2016-04-09 20:20:02 830
原创 SSH 免登陆配置
ssh免登陆配置: 1、本机生成秘钥: 生成证书公私钥的步骤: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 2、拷贝到对方的机器上: cat ~/.ssh/id_dsa.pub | ssh root@192.168.1.201 'cat
2016-04-04 03:18:16 331
原创 hadoop笔记
hdfs实现思想: 1、hdfs是通过分布式集群来存储文件 2、文件存储到hdfs集群中去的时候是被切分成block的 3、文件的block存放在若干台datanode节点上 4、hdfs文件系统中的文件与真实的block之间有映射关系,由namenode管理
2016-04-04 00:50:02 228
原创 hadoop 2.4编译、安装
1、hadoop-2.4.0版本编译 环境准备: 操作系统:Red Hat5.8 64bit 内核版本2.6.18-308.el5 1.1安装JDK JDK版本:jdk1.7.0_60 下载jdk-7u60-linux-x64.gz,并解压tar –zvxf jdk-7u60-linux-x64.gz 配置环境变量 export PATH export JAVA_HOME=
2016-04-02 19:26:59 465
原创 Java 环境变量参数
JAVA_HOME D:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60 Path D:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60\bin CLASSPATH D:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60\lib;D:\Pr
2016-04-02 01:44:15 726
Oracle64客户端解压后就可以使用
2018-07-07
cx_Oracle-5.1.2-11g.win-amd64-py2.7.msi
2018-07-07
Anaconda2-4.0.0-Windows-x86_64_2_part
2018-07-07
hive函数pdf文档
2016-07-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人