自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (27)
  • 收藏
  • 关注

原创 RDD

RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用.a.他是分布式的,可以分布在多台机器上,进行计算。b.他是弹性的,计

2016-04-30 13:31:47 344

原创 浅谈Hive vs. HBase

摘要:对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 Hive是什么?Apache Hive是一个构建于Had

2016-04-27 18:17:08 305

原创 hive和hbase表数据同步

第一步:建立book_localcreate external table book_load (id int,bcode String,zcode String,bname String,author String,publish String,fcode String,floor String) row format delimited fields t

2016-04-21 03:21:49 1946

原创 文件读取

import scala.io.Sourceobject FileRead {  def main(args:Array[String]){    val file = Source.fromFile("C:/Users/root/Desktop/hadoop_text/hadoop/WCMapper.java");    for(line       println(

2016-04-18 01:29:12 254

原创 Array

def main(args: Array[String]):Unit = {    val pair = (100,"Scala","Spark")    println(pair._1)    println(pair._2)    println(pair._3)  }    val ages = Map("Rocky"->27,"Spark"->5)  for

2016-04-18 01:23:09 233

原创 hadoop 多个mapreduce在java中串起来执行

注意:不建议这样做,用shell脚本把多个mr按顺序执行

2016-04-14 05:00:06 2221

原创 提交任务的时候获取切片split信息的流程

//遍历本次job所要处理的文件对每一个文件规划切片,将每一个切片信息封装到一个InputSplit对象中,再add到 split的arraylist中

2016-04-14 02:19:12 561

原创 hadoop的shuffle

Shuffle1、每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一但达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。2、写磁盘前,要partition,sort。如果有combine,combine排序后数据。

2016-04-13 22:43:17 319

原创 hadoop的map的数量

hadoop的map的数量1、map task 的并发数是由切片数量决定的,由多少个切片,就启动多少个map task2、切片是一个逻辑的概念,指的就是文件中数据的偏移量范围3、切片的具体大小应该根据所处理的文件的大小来调整

2016-04-13 22:42:32 651

原创 linux CentOS64安装中文输入法

sudo yum install "@Chinese support"

2016-04-11 03:03:32 637

原创 linux 时间配置

1、查看当前使用的时区: cat /etc/sysconfig/clock2、,先删除旧的时区配置: rm /etc/localtime3、,软链新的时区配置: ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime4、同步时间: /usr/sbin/ntpdate us.pool.ntp.org;/usr/sbin/ntp

2016-04-11 02:51:58 367

原创 hadoop2.4.1伪分布配置

core-site.xml  Licensed under the Apache License, Version 2.0 (the "License");  you may not use this file except in compliance with the License.  You may obtain a copy of the License at

2016-04-11 01:21:05 313

原创 ssh 免登陆

生成证书公私钥的步骤:ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keyscat ~/.ssh/id_dsa.pub | ssh root@192.168.1.202 'cat >> ~/.ssh/authorized_keys'注意的是:

2016-04-11 01:13:39 368

转载 MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行      ----输入输出数据可以放在本地路径下(c:/wc/srcdata/)      ----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdat

2016-04-10 03:00:24 2623

原创 MapperReduce原理

job提交流程

2016-04-10 02:08:33 2905

原创 mapper_reducer 笔记

package com.zyf.mr.wordcount;import java.io.IOException;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.io.LongWritable;

2016-04-09 20:20:02 830

转载 hadoop学习笔记

hadoop学习参考:

2016-04-05 03:21:27 342

原创 SSH 免登陆配置

ssh免登陆配置:1、本机生成秘钥:生成证书公私钥的步骤:ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys2、拷贝到对方的机器上:cat ~/.ssh/id_dsa.pub | ssh root@192.168.1.201 'cat

2016-04-04 03:18:16 330

原创 hadoop笔记

hdfs实现思想: 1、hdfs是通过分布式集群来存储文件 2、文件存储到hdfs集群中去的时候是被切分成block的 3、文件的block存放在若干台datanode节点上 4、hdfs文件系统中的文件与真实的block之间有映射关系,由namenode管理

2016-04-04 00:50:02 228

原创 hadoop 2.4编译、安装

1、hadoop-2.4.0版本编译环境准备:操作系统:Red Hat5.8  64bit内核版本2.6.18-308.el51.1安装JDKJDK版本:jdk1.7.0_60下载jdk-7u60-linux-x64.gz,并解压tar  –zvxf  jdk-7u60-linux-x64.gz配置环境变量export PATHexport JAVA_HOME=

2016-04-02 19:26:59 464

原创 Java 环境变量参数

JAVA_HOMED:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60PathD:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60\binCLASSPATHD:\ProgramDeveloper\JDK\Java1.7_64\jdk1.7.0_60\lib;D:\Pr

2016-04-02 01:44:15 726

Teradata 基础(BTEQ)

Teradata 基础(BTEQ)

2019-03-13

Oracle64客户端解压后就可以使用

Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64Oracle64

2018-07-07

cx_Oracle-5.1.2-11g.win-amd64-py2.7.msi

cx_Oracle-5.1.2-11g.win-amd64-py2.7.msicx_Oracle-5.1.2-11g.win-amd64-py2.7.msicx_Oracle-5.1.2-11g.win-amd64-py2.7.msi

2018-07-07

Anaconda2-4.0.0-Windows-x86_64_2_part

python 开发工具下载Anaconda2-4.0.0-Windows-x86_64,两部分文件一起下载使用

2018-07-07

Anaconda2-4.0.0-Windows-x86_64_1_part

python 开发 Anaconda2-4.0.0-Windows-x86_64 软件下载

2018-07-07

mystruts.zip

mystruts

2017-01-09

MD5解析原理

MD5暴力破解

2016-11-13

Spark机器学习

Spark机器学习

2016-10-11

RDD:基于内存的集群计算容错抽象

RDD:基于内存的集群计算容错抽象

2016-08-01

hive函数pdf文档

2016-07-05

hive jdbc 驱动

hive jdbc 驱动

2016-05-29

hadoop-2.7.1-API

hadoop-2.7.1-API

2016-04-14

数据仓库入门经典教程

数据仓库入门经典教程

2016-04-14

JDK6API中文参考

JDK6API中文参考

2016-04-14

eclipse4.4tomcat插件

eclipse4.4 tomcat插件

2014-07-09

spring源码

spring源码

2013-04-07

greeplum jdbc 包

greeplum jdbc 包

2013-01-30

Shell脚本学习指南

Shell脚本学习指南

2012-11-20

Hibernate3.2API

Hibernate3.2API

2012-11-20

Spring2.5-中文参考手册chm

Spring2.5-中文参考手册chm

2012-11-20

oracle数据库操作软件golden

oracle数据库操作软件goldenoracle数据库操作软件golden

2010-03-03

sql server2000 sp3

最新sql server2000 sp3

2009-11-21

oracle.jar包

oracle.jar包,oracle.jar包

2008-05-27

sql serve-jdbc-驱动

sql serve-jdbc-驱动,sql serve-jdbc-r驱动

2008-05-27

oracle_jdbc-驱动

oracle_jdbc-驱动,oracle_jdbc-驱动

2008-05-27

jrun4安装文件

jrun4安装文件,有详细说明

2008-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除