自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Smart_cxr的博客

博主很懒,什么都没留下。。。。

  • 博客(22)
  • 资源 (3)
  • 收藏
  • 关注

原创 Hive的数据存储

Hive的数据存储1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。3、Hive 中包含以下数据模型:DB、Table,External Table,Partition,Bucket。²  db:在hd...

2018-04-29 15:16:54 632

原创 Hive安装

Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.安装mysql数据库(切换到root用户)(装在哪里没有限制,只有能联通hadoop集群的节点) mysql安装仅供参考,不同版本mysql有各自的安装流程 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6...

2018-04-29 15:09:53 135

原创 hadoop高可用集群配置

hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的64位的...

2018-04-28 18:11:47 154

原创 Hadoop的HA机制

1 Hadoop的HA机制前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1 HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务)实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA (2)HDFS的HA机制详解通过双namenode消除单点故障双namen...

2018-04-27 17:20:08 198

原创 寻找共同好友实现

import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apach...

2018-04-26 10:50:48 1029

原创 map端join实现

package cn.smart.bigdata.mr.mapsidejoin;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.net.URI;import jav...

2018-04-25 19:13:00 493

原创 mapreduce&yarn的工作机制

1.mr程序提交的客户端所在的节点通过代理的方式向resource manager申请提交一个application;2.resource manager向客户端所在的节点返回application资源提交路径(hdfs://xxx..)以及application_id;3.mr程序提交的客户端通过job.submit()向hdfs提交job运行所需要的资源文件(hdfs://xxx..//app...

2018-04-22 16:20:49 178

原创 map-reducce运行全流程(Shuffle)

1,map task默认通过TestInputStream来读取数据,一次读取一行返回key-value值,通过context.write写到OutPutCollector收集器中;2,OutPutCollector将数据输出到环形缓冲区中,环形缓冲区的默认大小是100M,当缓冲区用到80%的时候,(也就是80M)会将环形缓冲区的中的数据溢出(spill)到文件;3,在环形缓存区中的数...

2018-04-22 14:24:24 351

原创 wordcount程序原理及代码实现

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import...

2018-04-21 10:00:10 838

原创 hdfs读数据流程示意图

1,客户端向namenode发送请求下载文件,namenode返回目标文件的元数据;2,客户端根据返回的元数据向datanode建立socket链接,先获取第一个block,再获取第二个block,直到最后一个block完;3,客户端获取到block按照顺序依次追加,最后形成一个文件。...

2018-04-18 19:09:49 471

原创 hdfs写数据流程

1,客户端向namenode请求上传文件,namenode响应可以上传;2,客户端用rpc方式来向namenode上传第一个block,namenode返回给客服端一个datanode;3,客户端向datanode请求建立block传输通道,将block(1-128M)块传输给datanode1,如果文件大小超过128M,会将文件划分为128的块分别上传到不同的namenode上,并且每个块都会有...

2018-04-18 13:04:17 194

原创 JavaAPI操作HDFS文件系统

import java.net.URI;import java.util.Iterator;import java.util.Map.Entry;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem...

2018-04-17 17:08:29 213

原创 hadoop集群搭建

1.准备Linux环境1.0先将虚拟机的网络模式选为NAT1.1修改主机名vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=itcast    ###1.2修改IP两种方式:第一种:通过Linux图形界面进行修改(强烈推荐)进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections...

2018-04-17 08:51:56 177

原创 rpc自定义框架运行流程

1.在spring.xml中需要将框架的类配置进去。2.用户只需要写实现类并添加上注解。3.在main函数中加载spring.xml配置文件(实际是可以在tomcat的web.xml文件中加载),会启动springContent容器,spring会去构造框架中的RpcServer,在RpcServer框架中会实现了ApplicationContextAware, InitializingBean两...

2018-04-15 13:32:24 206

原创 自定义rpc框架的设计思路

APP远程调用appService,通过spring容器扫描注解将其存储到一个HashMap中,并向zookeeper注册服务,利用spring的机制来启动服务器,也就是启动socketServer服务(netty框架)。App要通过动态代理和反射机制对象封装成request对象并向zookeeper查询名称服务器的实现地址,然后通过socket向socketServer发送请求(接口名,方法名称...

2018-04-15 10:12:40 338

原创 JavaAPI实现zookeeper连接客户端

package cn.smart.bigdata.zkdist;import java.util.ArrayList;import java.util.List;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper...

2018-04-13 08:51:52 391

原创 javaAPI实现创建zookeeper服务端

package cn.smart.bigdata.zkdist;import java.io.IOException;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org...

2018-04-13 08:51:00 217

原创 javaApi连接zookeeper客户端

package cn.smart.bigdata.zookeeper;import java.io.IOException;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeepe...

2018-04-13 07:47:34 1136

原创 Zookeeper

Zookeeper1. Zookeeper概念简介:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)C、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然...

2018-04-12 17:50:26 155

原创 本地yum仓库的安装配置

1、本地yum仓库的安装配置两种方式: a、每一台机器都配一个本地文件系统上的yum仓库 file:///packege/path/ b、在局域网内部配置一台节点(server-base)的本地文件系统yum仓库,然后将其发布到web服务器中,其他节点就可以通过http://server-base/pagekege/path/ 制作流程: 先挑选一台机器mini4,挂载一...

2018-04-11 08:50:38 233

原创 awk

简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfred Ah...

2018-04-08 21:09:51 155

原创 linux的命令操作

linux的命令操作1、日常操作命令 **查看当前所在的工作目录pwd**查看当前系统的时间 date**查看有谁在线(哪些人登陆到了服务器)who 查看当前在线last 查看最近的登陆历史记录2、文件系统操作**ls / 查看根目录下的子节点(文件夹和文件)信息ls -al -a是显示隐藏文件 -l是以更详细的列表形式显示**切换目录c...

2018-04-08 11:31:47 127

Java23中设计模式视频教程

Java编程中23种设计模式,详细视频教程介绍!编程更加高效的Java代码。

2018-12-27

大数据技术

大数据技术,包括了大数据生态圈和数据挖掘相关技术。

2018-12-26

大数据实战项目

企业级大数据实战项目,包含用到的软件、源代码、以及安装包。

2018-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除