自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (27)
  • 收藏
  • 关注

原创 RDD

RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用. a.他是分布式的,可以分布在多台机器上,进行计算。 b.他是弹性的,计

2016-04-30 13:31:47 344

原创 浅谈Hive vs. HBase

摘要:对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。  Hive是什么? Apache Hive是一个构建于Had

2016-04-27 18:17:08 305

原创 hive和hbase表数据同步

第一步:建立book_local create external table book_load ( id int, bcode String, zcode String, bname String, author String, publish String, fcode String, floor String ) row format delimited fields t

2016-04-21 03:21:49 1946

原创 文件读取

import scala.io.Source object FileRead {   def main(args:Array[String]){     val file = Source.fromFile("C:/Users/root/Desktop/hadoop_text/hadoop/WCMapper.java");     for(line       println(

2016-04-18 01:29:12 254

原创 Array

def main(args: Array[String]):Unit = {     val pair = (100,"Scala","Spark")     println(pair._1)     println(pair._2)     println(pair._3)   }      val ages = Map("Rocky"->27,"Spark"->5)   for

2016-04-18 01:23:09 233

原创 hadoop 多个mapreduce在java中串起来执行

注意:不建议这样做,用shell脚本把多个mr按顺序执行

2016-04-14 05:00:06 2221

原创 提交任务的时候获取切片split信息的流程

//遍历本次job所要处理的文件 对每一个文件规划切片,将每一个切片信息封装到一个InputSplit对象中,再add到 split的arraylist中

2016-04-14 02:19:12 561

原创 hadoop的shuffle

Shuffle 1、每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一但达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。 2、写磁盘前,要partition,sort。如果有combine,combine排序后数据。

2016-04-13 22:43:17 319

原创 hadoop的map的数量

hadoop的map的数量 1、map task 的并发数是由切片数量决定的,由多少个切片,就启动多少个map task 2、切片是一个逻辑的概念,指的就是文件中数据的偏移量范围 3、切片的具体大小应该根据所处理的文件的大小来调整

2016-04-13 22:42:32 652

原创 linux CentOS64安装中文输入法

sudo yum install "@Chinese support"

2016-04-11 03:03:32 637

原创 linux 时间配置

1、查看当前使用的时区: cat /etc/sysconfig/clock 2、,先删除旧的时区配置: rm /etc/localtime 3、,软链新的时区配置: ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 4、同步时间: /usr/sbin/ntpdate us.pool.ntp.org; /usr/sbin/ntp

2016-04-11 02:51:58 367

原创 hadoop2.4.1伪分布配置

core-site.xml   Licensed under the Apache License, Version 2.0 (the "License");   you may not use this file except in compliance with the License.   You may obtain a copy of the License at

2016-04-11 01:21:05 313

原创 ssh 免登陆

生成证书公私钥的步骤: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys cat ~/.ssh/id_dsa.pub | ssh root@192.168.1.202 'cat >> ~/.ssh/authorized_keys' 注意的是:

2016-04-11 01:13:39 368

转载 MR程序的几种提交运行模式

MR程序的几种提交运行模式 本地模型运行 1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行       ----输入输出数据可以放在本地路径下(c:/wc/srcdata/)       ----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdat

2016-04-10 03:00:24 2623

原创 MapperReduce原理

job提交流程

2016-04-10 02:08:33 2905

原创 mapper_reducer 笔记

package com.zyf.mr.wordcount; import java.io.IOException; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.io.LongWritable;

2016-04-09 20:20:02 830

转载 hadoop学习笔记

hadoop学习参考:

2016-04-05 03:21:27 342

原创 SSH 免登陆配置

ssh免登陆配置: 1、本机生成秘钥: 生成证书公私钥的步骤: ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 2、拷贝到对方的机器上: cat ~/.ssh/id_dsa.pub | ssh root@192.168.1.201 'cat

2016-04-04 03:18:16 331

原创 hadoop笔记

hdfs实现思想: 1、hdfs是通过分布式集群来存储文件  2、文件存储到hdfs集群中去的时候是被切分成block的  3、文件的block存放在若干台datanode节点上  4、hdfs文件系统中的文件与真实的block之间有映射关系,由namenode管理

2016-04-04 00:50:02 228

原创 hadoop 2.4编译、安装

1、hadoop-2.4.0版本编译 环境准备: 操作系统:Red Hat5.8  64bit 内核版本2.6.18-308.el5 1.1安装JDK JDK版本:jdk1.7.0_60 下载jdk-7u60-linux-x64.gz,并解压tar  –zvxf  jdk-7u60-linux-x64.gz 配置环境变量 export PATH export JAVA_HOME=

2016-04-02 19:26:59 465

原创 Java 环境变量参数

JAVA_HOME D:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60 Path D:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60\bin CLASSPATH D:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60\lib;D:\Pr

2016-04-02 01:44:15 726

Teradata 基础(BTEQ)

Teradata 基础(BTEQ)

2019-03-13

Oracle64客户端解压后就可以使用

Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64

2018-07-07

cx_Oracle-5.1.2-11g.win-amd64-py2.7.msi

cx_Oracle-5.1.2-11g.win-amd64-py2.7.msicx_Oracle-5.1.2-11g.win-amd64-py2.7.msicx_Oracle-5.1.2-11g.win-amd64-py2.7.msi

2018-07-07

Anaconda2-4.0.0-Windows-x86_64_2_part

python 开发工具下载Anaconda2-4.0.0-Windows-x86_64,两部分文件一起下载使用

2018-07-07

Anaconda2-4.0.0-Windows-x86_64_1_part

python 开发 Anaconda2-4.0.0-Windows-x86_64 软件下载

2018-07-07

mystruts.zip

mystruts

2017-01-09

MD5解析原理

MD5暴力破解

2016-11-13

Spark机器学习

Spark机器学习

2016-10-11

RDD:基于内存的集群计算容错抽象

RDD:基于内存的集群计算容错抽象

2016-08-01

hive函数pdf文档

2016-07-05

hive jdbc 驱动

hive jdbc 驱动

2016-05-29

hadoop-2.7.1-API

hadoop-2.7.1-API

2016-04-14

数据仓库入门经典教程

数据仓库入门经典教程

2016-04-14

JDK6API中文参考

JDK6API中文参考

2016-04-14

eclipse4.4tomcat插件

eclipse4.4 tomcat插件

2014-07-09

spring源码

spring源码

2013-04-07

greeplum jdbc 包

greeplum jdbc 包

2013-01-30

Shell脚本学习指南

Shell脚本学习指南

2012-11-20

Hibernate3.2API

Hibernate3.2API

2012-11-20

Spring2.5-中文参考手册chm

Spring2.5-中文参考手册chm

2012-11-20

oracle数据库操作软件golden

oracle数据库操作软件goldenoracle数据库操作软件golden

2010-03-03

sql server2000 sp3

最新sql server2000 sp3

2009-11-21

oracle.jar包

oracle.jar包,oracle.jar包

2008-05-27

sql serve-jdbc-驱动

sql serve-jdbc-驱动,sql serve-jdbc-r驱动

2008-05-27

oracle_jdbc-驱动

oracle_jdbc-驱动,oracle_jdbc-驱动

2008-05-27

jrun4安装文件

jrun4安装文件,有详细说明

2008-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除