排序:
默认
按更新时间
按访问量

从零开始搭建Hadoop框架(单机模式)

准备工作 Master和Slave1中都要安装Hadoop,在这我们以Master为例,Slave1类似 1).Hadoop 简介 Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce 和 HDFS。基于 Hadoop,你可以轻松地编写可处...

2018-01-05 12:14:58

阅读数:107

评论数:0

MySQL绿色版安装指南

首先,将下载好的MySQL解压. 如图所示,可能没有my.ini. 如果没有则自己手动创建一个my.ini[mysql] # 设置mysql客户端默认字符集 default-character-set=utf8 [mysqld] #设置3306端口 port = 3306 # 设置my...

2017-12-23 13:52:00

阅读数:101

评论数:0

Storm 核心概念及工作原理

Strom 简介Apache Storm(http://storm.apache.org)是由Twitter 开源的分布式实时计算系统,Storm 可以非常容易并且可靠的处理无线的数据流,对比Hadoop的批处理,Storm是一个实时的、分布式的、具备高容错的计算系统。Storm的核心代码使用cl...

2017-11-10 10:38:28

阅读数:454

评论数:0

Kafka 概述 核心组件及特性

什么是Kafka Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高...

2017-11-02 15:15:56

阅读数:320

评论数:0

Flume初体验

需求:从网络端口接受数据,输出到控制台 Agent选型:netcat+source + memory channel + logger sink官网提供的配置# example.conf: A single-node Flume configuration# Name the component...

2017-11-02 15:04:23

阅读数:147

评论数:0

Flume 概述架构及部署

简介Flume是由 Cloudera 提供的一个分布式、高可靠、高可用的服务,用于分布式的海量日志的高效收集、聚合、移动系统。简单来说,Flume 就是一个针对日志数据进行采集和汇总的一个工具(把日志从A地方移动到B地方)Flume官网 Flume官方文档Flume 特点 可靠性:当节点出现故障...

2017-10-31 17:35:44

阅读数:207

评论数:0

Spark-RDD详解

什么是RDD? 弹性分布式数据集分布在不同集群节点的内存中 可以理解成一大数组 数组的每一元素是RDD的一分区 RDD的每一分区是一数据块 一个RDD可以分布并被运算在多台计算机节点的内存及硬盘中 RDD代表了一系列数据集合分布在机群的内存中。SPARK CORE 的任务是对这些数据进行分布式计...

2017-10-30 15:57:53

阅读数:203

评论数:1

Spark-core 运行原理

架构图在此Spark Core部件解析 应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; 驱动程序(Driver Program): 运行Application的main()函数并且创建 SparkContex...

2017-10-24 22:42:19

阅读数:240

评论数:0

Spark组件介绍

Spark简介Spark可以独立于Hadoop单独运行Spark的设计理念 交互式和迭代式 在集群多点内存中运行的分布式计算 容错数据集合 同时Spark还支持使用不同的语言编程(Java,Scala,R,Python) 可以从不同的数据源获取数据(HDFS,Cassandra,HB...

2017-10-23 10:29:16

阅读数:2060

评论数:0

项目使用Dubbo实现解耦和

代码准备本次作者建立了一个小Demo来说明如何使用Dubbo实现解耦和的项目部署方式 作者使用的开发工具是idea,大家也可以使用eclipse或者myeclipse. 首先使用idea创建一个maven项目, 其中包括了5个子模块,分别是 - dao - daoimpl - se...

2017-09-25 11:45:43

阅读数:1317

评论数:0

MapReducu操作HBase

1.创建项目作者使用的开发工具是idea,也可以使用eclipse、myeclipse或其它工具,创建一个maven项目1.pom.xml 配置如下<?xml version="1.0" encoding="UTF-8"?> <projec...

2017-09-25 09:35:13

阅读数:231

评论数:0

HBase常用操作

一、Shell 操作使用如下命令进入hbase 的shell 客户端,输入quit或exit退出$ hbase shell查看hbase 所有命令$ help如果忘记了命令如何使用,使用help ‘命令’查看帮助文档,如下hbase(main):048:0> help 'list' List...

2017-09-25 09:32:44

阅读数:285

评论数:0

Jedis操作Redis模型

对于外部程序,想要访问Redis首先需要对Redis进行两个设置 在Redis配置文件redis.conf中配置如下1. 注释掉bang 127.0.0.1,否则只能本机访问 2. 关闭redis的保护模式不推荐使用new jedis这样的操作,因为操作一次都要对redis进行远程访问,会大量...

2017-09-23 21:53:50

阅读数:172

评论数:0

Shuffle详解

Shuffle过程是MapReduce的核心。Shuffle的意思是洗牌或者打乱,会使用Java的同学应该见过Java API里面的Collections.shuffle(list)方法,它会随机地打乱参数list里面的元素顺序。 如果读者不知道MapReduce里面的Shuffle是什么,请看...

2017-09-16 22:46:28

阅读数:263

评论数:0

HUE安装与配置

准备软件包准备 HUE官方网站 HUE官方帮助手册 已安装的分布式框架例如Hadoop 以及其它需要与HUE集成的软件需要的依赖$ yum install -y gcc libxml2-devel libxslt-devel cyrus-sasl-devel mysql-devel pyt...

2017-09-09 12:16:56

阅读数:4743

评论数:0

Lua构建及安装

前言lua源码Lua官网下载地址 注意:在~/lua-5.3.x/doc目录下有一个叫readme.html为官方帮助文档 在使用源码编译的时候,需要一个依赖readline-devel使用如下命令安装$ sudo yum instal readline-devel安装根据安装平台的类...

2017-09-09 11:55:13

阅读数:177

评论数:0

Sqoop-Shell命令参数详解

前言此文章为作者查看Sqoop官方网站整理归纳 加入了部分个人见解. 顺便附上:Sqoop官方帮助手册显示(Show) function 描述 可选参数 server 连接到sqoop服务器的信息 -a -h -p -w option 各种客户端选项 -n ...

2017-09-02 21:05:18

阅读数:934

评论数:0

Sqoop安装及初体验

前言文章中所有的路径,均是演示所用. 实际情况请自行斟酌 首先介绍一下什么是Sqoop Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Or...

2017-09-02 13:25:21

阅读数:501

评论数:1

Java操作HBase

本文通过Java书写MapReduce的方式来对Hbase进行操作 - 使用 MapReduce将 HDFS 的文件导入到 hbase - 从 HBase 实现备份数据到 HDFS - 将 HBase 中的数据导入到 MySQL创建项目首先,使用开发工具创建一个maven项目 具体pom...

2017-08-31 09:20:47

阅读数:399

评论数:0

Hive环境搭建

前言: 首先Hive中的元数据默认存放在Derby中,Derby是单用户的,使用起来不方便,我们使用MySQL来存储Hive的元数据信息,元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 由于Hive的元数据需要不断的更新、修改,而HDFS系统中的文件是...

2017-08-24 15:15:34

阅读数:128

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭