- 博客(22)
- 资源 (3)
- 收藏
- 关注
原创 Hive的数据存储
Hive的数据存储1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。3、Hive 中包含以下数据模型:DB、Table,External Table,Partition,Bucket。² db:在hd...
2018-04-29 15:16:54 632
原创 Hive安装
Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.安装mysql数据库(切换到root用户)(装在哪里没有限制,只有能联通hadoop集群的节点) mysql安装仅供参考,不同版本mysql有各自的安装流程 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6...
2018-04-29 15:09:53 135
原创 hadoop高可用集群配置
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将编译好的64位的...
2018-04-28 18:11:47 154
原创 Hadoop的HA机制
1 Hadoop的HA机制前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1 HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务)实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA (2)HDFS的HA机制详解通过双namenode消除单点故障双namen...
2018-04-27 17:20:08 198
原创 寻找共同好友实现
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apach...
2018-04-26 10:50:48 1029
原创 map端join实现
package cn.smart.bigdata.mr.mapsidejoin;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.net.URI;import jav...
2018-04-25 19:13:00 493
原创 mapreduce&yarn的工作机制
1.mr程序提交的客户端所在的节点通过代理的方式向resource manager申请提交一个application;2.resource manager向客户端所在的节点返回application资源提交路径(hdfs://xxx..)以及application_id;3.mr程序提交的客户端通过job.submit()向hdfs提交job运行所需要的资源文件(hdfs://xxx..//app...
2018-04-22 16:20:49 178
原创 map-reducce运行全流程(Shuffle)
1,map task默认通过TestInputStream来读取数据,一次读取一行返回key-value值,通过context.write写到OutPutCollector收集器中;2,OutPutCollector将数据输出到环形缓冲区中,环形缓冲区的默认大小是100M,当缓冲区用到80%的时候,(也就是80M)会将环形缓冲区的中的数据溢出(spill)到文件;3,在环形缓存区中的数...
2018-04-22 14:24:24 351
原创 wordcount程序原理及代码实现
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import...
2018-04-21 10:00:10 838
原创 hdfs读数据流程示意图
1,客户端向namenode发送请求下载文件,namenode返回目标文件的元数据;2,客户端根据返回的元数据向datanode建立socket链接,先获取第一个block,再获取第二个block,直到最后一个block完;3,客户端获取到block按照顺序依次追加,最后形成一个文件。...
2018-04-18 19:09:49 471
原创 hdfs写数据流程
1,客户端向namenode请求上传文件,namenode响应可以上传;2,客户端用rpc方式来向namenode上传第一个block,namenode返回给客服端一个datanode;3,客户端向datanode请求建立block传输通道,将block(1-128M)块传输给datanode1,如果文件大小超过128M,会将文件划分为128的块分别上传到不同的namenode上,并且每个块都会有...
2018-04-18 13:04:17 194
原创 JavaAPI操作HDFS文件系统
import java.net.URI;import java.util.Iterator;import java.util.Map.Entry;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem...
2018-04-17 17:08:29 213
原创 hadoop集群搭建
1.准备Linux环境1.0先将虚拟机的网络模式选为NAT1.1修改主机名vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=itcast ###1.2修改IP两种方式:第一种:通过Linux图形界面进行修改(强烈推荐)进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections...
2018-04-17 08:51:56 177
原创 rpc自定义框架运行流程
1.在spring.xml中需要将框架的类配置进去。2.用户只需要写实现类并添加上注解。3.在main函数中加载spring.xml配置文件(实际是可以在tomcat的web.xml文件中加载),会启动springContent容器,spring会去构造框架中的RpcServer,在RpcServer框架中会实现了ApplicationContextAware, InitializingBean两...
2018-04-15 13:32:24 206
原创 自定义rpc框架的设计思路
APP远程调用appService,通过spring容器扫描注解将其存储到一个HashMap中,并向zookeeper注册服务,利用spring的机制来启动服务器,也就是启动socketServer服务(netty框架)。App要通过动态代理和反射机制对象封装成request对象并向zookeeper查询名称服务器的实现地址,然后通过socket向socketServer发送请求(接口名,方法名称...
2018-04-15 10:12:40 338
原创 JavaAPI实现zookeeper连接客户端
package cn.smart.bigdata.zkdist;import java.util.ArrayList;import java.util.List;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper...
2018-04-13 08:51:52 391
原创 javaAPI实现创建zookeeper服务端
package cn.smart.bigdata.zkdist;import java.io.IOException;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org...
2018-04-13 08:51:00 217
原创 javaApi连接zookeeper客户端
package cn.smart.bigdata.zookeeper;import java.io.IOException;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeepe...
2018-04-13 07:47:34 1136
原创 Zookeeper
Zookeeper1. Zookeeper概念简介:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)C、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然...
2018-04-12 17:50:26 155
原创 本地yum仓库的安装配置
1、本地yum仓库的安装配置两种方式: a、每一台机器都配一个本地文件系统上的yum仓库 file:///packege/path/ b、在局域网内部配置一台节点(server-base)的本地文件系统yum仓库,然后将其发布到web服务器中,其他节点就可以通过http://server-base/pagekege/path/ 制作流程: 先挑选一台机器mini4,挂载一...
2018-04-11 08:50:38 233
原创 awk
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfred Ah...
2018-04-08 21:09:51 155
原创 linux的命令操作
linux的命令操作1、日常操作命令 **查看当前所在的工作目录pwd**查看当前系统的时间 date**查看有谁在线(哪些人登陆到了服务器)who 查看当前在线last 查看最近的登陆历史记录2、文件系统操作**ls / 查看根目录下的子节点(文件夹和文件)信息ls -al -a是显示隐藏文件 -l是以更详细的列表形式显示**切换目录c...
2018-04-08 11:31:47 127
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人