superWe的博客

日常笔记

MapReduce优化参数

MapReduce 优化参数 1 . 资源相关参数 以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效 (1) mapreduce.map.memory.mb: 一个 Map Task 可使用的内存上限(单位:MB),默认为 1024。如果 Map Task 实际使用的资源...

2018-04-19 22:07:50

阅读数:25

评论数:0

ZKFC(Zookeeper Failover Controller)原理【详细版】

ZKFC设计文档(ZK Failover Controller Design) 设计 组件化设计,ZK-based的automatic Failover主要由三个组件组成: HealthMonitor:用于监控NN是否unavailable或者处于unhealth状态 ActiveStan...

2018-04-16 23:05:42

阅读数:22

评论数:0

hive优化

​ hive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。 用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。 hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spa...

2018-04-16 14:43:27

阅读数:22

评论数:0

hadoop 2.7.5集群搭建

1、准备三台机器,每天机器关闭防火墙,设置hosts文件,配置免密登录 关闭防火墙 servie iptables stop chkconfig iptables off && setenforce 0 设置hosts 19...

2018-04-16 00:32:38

阅读数:39

评论数:0

为 elasticsearch安装插件 可视化插件

为elasticsearch安装插件 可视化插件 严重参考这个文档,感谢! 1)安装nodejs head是es的一个可视化插件 由于head运行在node.js上,我们需要安装nodejs 注意:在root用户下执行 yum install -y gcc-c++ make # cu...

2018-04-16 00:30:56

阅读数:132

评论数:0

hbase面试题

一、HBase的特点是什么 1.HBase一个分布式的基于列式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。 2.HBase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 3.HBase为null的记录不会被存储....

2018-04-16 00:25:12

阅读数:59

评论数:0

kafka

kafka 1.Kafka介绍 Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为...

2018-04-16 00:21:29

阅读数:59

评论数:0

Hive简介

Apache Hive Hive简介 1.什么是 Hive Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件 映射为一张数据库表,并提供类 SQL 查询功能。 本质是将 L SQL 转换为 e MapReduce 程序。主要用途:用来做离线数据分析,比直接...

2018-04-16 00:21:10

阅读数:21

评论数:0

Linux Redis4.0.2安装部署

Linux Redis 4.0.2 安装部署 01 安装GCC yum -y install gcc gcc-c++ libstdc++-devel tcl -y 02 下载安装包 cd /export/software/ wget http://219.238.7.71/...

2018-04-15 09:36:34

阅读数:27

评论数:0

Linux Mysql安装及远程权限开放

Linux Mysql 安装及远程权限开放 01 安装服务端和客户端 yum install mysql-server -y yum install mysql -y 02 启动服务端 service mysqld start 03 启动客户端 mysql ...

2018-04-15 09:34:08

阅读数:24

评论数:0

hbase的rowkey设计原则

HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有两种方式: 1、...

2018-04-15 09:31:27

阅读数:48

评论数:0

Ganglia安装部署

Ganglia监控Hadoop集群的安装部署 详情请参见 http://boendev.iteye.com/blog/1750615 一、 安装环境 CentOS6.5x86_64 安装gmetad的机器:10.2.6.250 (服务端) 安装gmond的机器:10.2.6.250,1...

2018-04-15 09:15:29

阅读数:39

评论数:0

wordcount

MapReduce 经过map阶段进行shuflle(洗牌),将获得的每个kv(key,value) 分发给reduce阶段,如果存在相同的key会给同一个ruduce task 任务去进行reduce.将相同的key 聚合在一个reduce task 任务中. shuffle必定会将相同...

2018-04-15 09:11:41

阅读数:31

评论数:0

zookeeper客户端

1.zookeeper 1.1ZooKeeper特性 全局数据一致:集群中每个服务器保存一份相同的数据副本,client无论连接到哪个服务器,展示的数据都是一致的,这是最重要的特征; 可靠性:如果消息被其中一台服务器接受,那么将被所有的服务器接受。 顺序性:包括全局有序和偏序两种:全局有...

2018-04-15 09:09:56

阅读数:31

评论数:0

SparkSql

SparkSql 1.sparkSQL概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。它是sparkSQL的底层抽象 有多种方式去使用Spark SQL,包括SQL、DataFrames ...

2018-04-15 09:06:48

阅读数:63

评论数:0

sparkStreaming

1、sparkStreaming 它是一个可扩展,高吞吐具有容错性的流式计算。 2、sparkStreaming特性 1、易用性 可以像编写离线批处理一样去编写流式程序 可以使用java/python/R 2、容错性 保证数据恰好只被处理一次 3、融合spark体系 ...

2018-04-15 09:05:25

阅读数:99

评论数:0

Spark简单介绍&安装步骤

Spark 1.spark 概述 spark概念 基于内存的分布式计算系统,计算速度很快,只是用于数据的计算,不涉及到数据的存储.可以对接外部数据源(例如HDFS) Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法...

2018-04-15 09:03:43

阅读数:142

评论数:0

Hive搭建&基本操作

1.Hive 安装部署 ​ Hive 安装前需要安装好 JDK 和 Hadoop。配置好环境变量。 ​ 根据元数据存储的介质不同,分为下面两个版本,其中 derby 属于内嵌模式。实际生产环境中则使用 mysql 来进行元数据的存储。 ## 内置 derby 版: 解压 h...

2018-04-14 17:37:06

阅读数:24

评论数:0

数据仓库

数据仓库 1 . 数据仓库的基本概念 数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数...

2018-04-14 17:35:47

阅读数:12

评论数:0

zookeeper安装

安装前需要安装好jdk 检测集群时间是否同步 检测防火墙是否关闭 检测主机 ip映射有没有配置 下载安装包、解压 tar -zxvf zookeeper-3.4.5.tar.gz mv zookeeper-3.4.5 zookeeper 修改环境变量(注意:3台zookee...

2018-04-14 17:34:22

阅读数:10

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭