从零开始搭建Hadoop框架(单机模式) 准备工作Master和Slave1中都要安装Hadoop,在这我们以Master为例,Slave1类似 1).Hadoop 简介 Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce 和 HDFS。基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。 HDFS:Had
MySQL绿色版安装指南 首先,将下载好的MySQL解压. 如图所示,可能没有my.ini. 如果没有则自己手动创建一个my.ini[mysql]# 设置mysql客户端默认字符集default-character-set=utf8 [mysqld]#设置3306端口port = 3306 # 设置mysql的安装目录basedir=D:\mysql-5.7.20-winx64# 设置mysql数据库
Storm 核心概念及工作原理 Strom 简介Apache Storm(http://storm.apache.org)是由Twitter 开源的分布式实时计算系统,Storm 可以非常容易并且可靠的处理无线的数据流,对比Hadoop的批处理,Storm是一个实时的、分布式的、具备高容错的计算系统。Storm的核心代码使用clojure书写,实用程序使用python开发,使用java开发拓扑。Storm 的使用场景非常广泛,比如
Kafka 概述 核心组件及特性 什么是KafkaApache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,
Flume初体验 需求:从网络端口接受数据,输出到控制台 Agent选型:netcat+source + memory channel + logger sink官网提供的配置# example.conf: A single-node Flume configuration# Name the components on this agenta1.sources = r1a1.sinks = k1a1.cha
Flume 概述架构及部署 简介Flume是由 Cloudera 提供的一个分布式、高可靠、高可用的服务,用于分布式的海量日志的高效收集、聚合、移动系统。简单来说,Flume 就是一个针对日志数据进行采集和汇总的一个工具(把日志从A地方移动到B地方)Flume官网 Flume官方文档Flume 特点可靠性:当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:
Spark-RDD详解 什么是RDD?弹性分布式数据集分布在不同集群节点的内存中可以理解成一大数组数组的每一元素是RDD的一分区RDD的每一分区是一数据块一个RDD可以分布并被运算在多台计算机节点的内存及硬盘中 RDD代表了一系列数据集合分布在机群的内存中。SPARK CORE 的任务是对这些数据进行分布式计算。RDD特性RDD数据块可以放在磁盘上也可放在内存中(取决于设置)如出现缓存失效或丢失,RDD的
Spark-core 运行原理 架构图在此Spark Core部件解析应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;驱动程序(Driver Program): 运行Application的main()函数并且创建 SparkContext. 通常用SparkContext代表Driver Program执行单元 (Executor):
Spark组件介绍 Spark简介Spark可以独立于Hadoop单独运行Spark的设计理念 交互式和迭代式在集群多点内存中运行的分布式计算容错数据集合 同时Spark还支持使用不同的语言编程(Java,Scala,R,Python) 可以从不同的数据源获取数据(HDFS,Cassandra,HBase) 实现不同的功能Spark Core, Spark SQL, Spark Streamin
项目使用Dubbo实现解耦和 代码准备本次作者建立了一个小Demo来说明如何使用Dubbo实现解耦和的项目部署方式 作者使用的开发工具是idea,大家也可以使用eclipse或者myeclipse. 首先使用idea创建一个maven项目, 其中包括了5个子模块,分别是 - dao - daoimpl - service - serviceimpl - web 项目结构如下图,请原谅画的比较…..(额..抽
MapReducu操作HBase 1.创建项目作者使用的开发工具是idea,也可以使用eclipse、myeclipse或其它工具,创建一个maven项目1.pom.xml 配置如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org
HBase常用操作 一、Shell 操作使用如下命令进入hbase 的shell 客户端,输入quit或exit退出$ hbase shell查看hbase 所有命令$ help如果忘记了命令如何使用,使用help ‘命令’查看帮助文档,如下hbase(main):048:0> help 'list'List all tables in hbase. Optional regular expression param
Jedis操作Redis模型 对于外部程序,想要访问Redis首先需要对Redis进行两个设置 在Redis配置文件redis.conf中配置如下1. 注释掉bang 127.0.0.1,否则只能本机访问 2. 关闭redis的保护模式不推荐使用new jedis这样的操作,因为操作一次都要对redis进行远程访问,会大量的消耗资源 推荐使用连接池,其中有三个非常重要的类JedisPoolConfig:设置和读取配置文件
Shuffle详解 Shuffle过程是MapReduce的核心。Shuffle的意思是洗牌或者打乱,会使用Java的同学应该见过Java API里面的Collections.shuffle(list)方法,它会随机地打乱参数list里面的元素顺序。 如果读者不知道MapReduce里面的Shuffle是什么,请看下图 Shuffle差不多就是从MapTask输出到ReduceTask输入的这一过程。 在真实
HUE安装与配置 准备软件包准备 HUE官方网站 HUE官方帮助手册 已安装的分布式框架例如Hadoop 以及其它需要与HUE集成的软件需要的依赖$ yum install -y gcc libxml2-devel libxslt-devel cyrus-sasl-devel mysql-devel python-devel python-setuptools python-simplejson sqlite
Lua构建及安装 前言lua源码Lua官网下载地址 注意:在~/lua-5.3.x/doc目录下有一个叫readme.html为官方帮助文档 在使用源码编译的时候,需要一个依赖readline-devel使用如下命令安装$ sudo yum instal readline-devel安装根据安装平台的类型lua官方提供了如下几种 aix bsd c89 freebsd generic linux ma
Sqoop-Shell命令参数详解 前言此文章为作者查看Sqoop官方网站整理归纳 加入了部分个人见解. 顺便附上:Sqoop官方帮助手册显示(Show) function 描述 可选参数 server 连接到sqoop服务器的信息 -a -h -p -w option 各种客户端选项 -n version 客户端构建版本 -a -c -s -p connector 连接器相关
Sqoop安装及初体验 前言文章中所有的路径,均是演示所用. 实际情况请自行斟酌 首先介绍一下什么是Sqoop Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系
Java操作HBase 本文通过Java书写MapReduce的方式来对Hbase进行操作 - 使用 MapReduce将 HDFS 的文件导入到 hbase - 从 HBase 实现备份数据到 HDFS - 将 HBase 中的数据导入到 MySQL创建项目首先,使用开发工具创建一个maven项目 具体pom文件如下.pom文件<?xml version="1.0" encoding="UTF-8"?>
Hive环境搭建 前言: 首先Hive中的元数据默认存放在Derby中,Derby是单用户的,使用起来不方便,我们使用MySQL来存储Hive的元数据信息,元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 由于Hive的元数据需要不断的更新、修改,而HDFS系统中的文件是多读少改的,这显然不能将Hive的元数据存储在HDFS中。安装mysql直接使用yum安装mysql是无