2018年04月_Smart_cxr

12月 11月 08月 07月 06月 05月 04月 03月 02月

原创 Hive的数据存储

Hive的数据存储1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。3、Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。² db：在hd...

2018-04-29 15:16:54 632

原创 Hive安装

Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.安装mysql数据库（切换到root用户）（装在哪里没有限制，只有能联通hadoop集群的节点） mysql安装仅供参考，不同版本mysql有各自的安装流程 rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6...

2018-04-29 15:09:53 135

原创 hadoop高可用集群配置

hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意：apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编译（建议第一次安装用32位的系统，我将编译好的64位的...

2018-04-28 18:11:47 154

原创 Hadoop的HA机制

1 Hadoop的HA机制前言：正式引入HA机制是从hadoop2.0开始，之前的版本中没有HA机制1.1 HA的运作机制（1）hadoop-HA集群运作机制介绍所谓HA，即高可用（7*24小时不中断服务）实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA （2）HDFS的HA机制详解通过双namenode消除单点故障双namen...

2018-04-27 17:20:08 198

原创寻找共同好友实现

import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apach...

2018-04-26 10:50:48 1029

原创 map端join实现

package cn.smart.bigdata.mr.mapsidejoin;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.net.URI;import jav...

2018-04-25 19:13:00 493

原创 mapreduce&yarn的工作机制

1.mr程序提交的客户端所在的节点通过代理的方式向resource manager申请提交一个application；2.resource manager向客户端所在的节点返回application资源提交路径（hdfs://xxx..)以及application_id;3.mr程序提交的客户端通过job.submit()向hdfs提交job运行所需要的资源文件（hdfs://xxx..//app...

2018-04-22 16:20:49 178

原创 map-reducce运行全流程（Shuffle）

1，map task默认通过TestInputStream来读取数据，一次读取一行返回key-value值，通过context.write写到OutPutCollector收集器中；2，OutPutCollector将数据输出到环形缓冲区中，环形缓冲区的默认大小是100M，当缓冲区用到80%的时候，（也就是80M）会将环形缓冲区的中的数据溢出（spill）到文件；3，在环形缓存区中的数...

2018-04-22 14:24:24 351

原创 wordcount程序原理及代码实现

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import...

2018-04-21 10:00:10 838

原创 hdfs读数据流程示意图

1，客户端向namenode发送请求下载文件，namenode返回目标文件的元数据；2，客户端根据返回的元数据向datanode建立socket链接，先获取第一个block，再获取第二个block，直到最后一个block完；3，客户端获取到block按照顺序依次追加，最后形成一个文件。...

2018-04-18 19:09:49 471

原创 hdfs写数据流程

1，客户端向namenode请求上传文件，namenode响应可以上传；2，客户端用rpc方式来向namenode上传第一个block，namenode返回给客服端一个datanode；3，客户端向datanode请求建立block传输通道，将block（1-128M）块传输给datanode1，如果文件大小超过128M，会将文件划分为128的块分别上传到不同的namenode上，并且每个块都会有...

2018-04-18 13:04:17 194

原创 JavaAPI操作HDFS文件系统

import java.net.URI;import java.util.Iterator;import java.util.Map.Entry;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem...

2018-04-17 17:08:29 213

原创 hadoop集群搭建

1.准备Linux环境1.0先将虚拟机的网络模式选为NAT1.1修改主机名vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=itcast ###1.2修改IP两种方式：第一种：通过Linux图形界面进行修改（强烈推荐）进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections...

2018-04-17 08:51:56 177

原创 rpc自定义框架运行流程

1.在spring.xml中需要将框架的类配置进去。2.用户只需要写实现类并添加上注解。3.在main函数中加载spring.xml配置文件（实际是可以在tomcat的web.xml文件中加载），会启动springContent容器，spring会去构造框架中的RpcServer，在RpcServer框架中会实现了ApplicationContextAware, InitializingBean两...

2018-04-15 13:32:24 206

原创自定义rpc框架的设计思路

APP远程调用appService，通过spring容器扫描注解将其存储到一个HashMap中，并向zookeeper注册服务，利用spring的机制来启动服务器，也就是启动socketServer服务（netty框架）。App要通过动态代理和反射机制对象封装成request对象并向zookeeper查询名称服务器的实现地址，然后通过socket向socketServer发送请求（接口名，方法名称...

2018-04-15 10:12:40 338

原创 JavaAPI实现zookeeper连接客户端

package cn.smart.bigdata.zkdist;import java.util.ArrayList;import java.util.List;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper...

2018-04-13 08:51:52 391

原创 javaAPI实现创建zookeeper服务端

package cn.smart.bigdata.zkdist;import java.io.IOException;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org...

2018-04-13 08:51:00 217

原创 javaApi连接zookeeper客户端

package cn.smart.bigdata.zookeeper;import java.io.IOException;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeepe...

2018-04-13 07:47:34 1136

原创 Zookeeper

Zookeeper1. Zookeeper概念简介：Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务）C、Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然...

2018-04-12 17:50:26 155

原创本地yum仓库的安装配置

1、本地yum仓库的安装配置两种方式： a、每一台机器都配一个本地文件系统上的yum仓库 file:///packege/path/ b、在局域网内部配置一台节点(server-base)的本地文件系统yum仓库，然后将其发布到web服务器中，其他节点就可以通过http://server-base/pagekege/path/ 制作流程：先挑选一台机器mini4，挂载一...

2018-04-11 08:50:38 233

原创 awk

简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfred Ah...

2018-04-08 21:09:51 155

原创 linux的命令操作

linux的命令操作1、日常操作命令 **查看当前所在的工作目录pwd**查看当前系统的时间 date**查看有谁在线（哪些人登陆到了服务器）who 查看当前在线last 查看最近的登陆历史记录2、文件系统操作**ls / 查看根目录下的子节点（文件夹和文件）信息ls -al -a是显示隐藏文件 -l是以更详细的列表形式显示**切换目录c...

2018-04-08 11:31:47 127

Java23中设计模式视频教程

Java编程中23种设计模式，详细视频教程介绍！编程更加高效的Java代码。

2018-12-27

大数据技术

大数据技术，包括了大数据生态圈和数据挖掘相关技术。

2018-12-26

大数据实战项目

企业级大数据实战项目，包含用到的软件、源代码、以及安装包。

2018-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人