qq_34795664-CSDN博客

原创 MapReduce优化参数

MapReduce 优化参数1 ．资源相关参数以下参数是在用户自己的 MapReduce 应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个 Map Task 可使用的内存上限（单位:MB），默认为 1024。如果 Map Task 实际使用的资源量超过该值，则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个 R...

2018-04-19 22:07:50 193

转载 ZKFC(Zookeeper Failover Controller)原理【详细版】

ZKFC设计文档（ZK Failover Controller Design）设计组件化设计，ZK-based的automatic Failover主要由三个组件组成：HealthMonitor：用于监控NN是否unavailable或者处于unhealth状态ActiveStandbyElector：用于监控NN在zk中的状态ZKFailoverController：从Heal...

2018-04-16 23:05:42 1435

原创 hive优化

hive之于数据民工，就如同锄头之于农民伯伯。hive用的好，才能从地里（数据库）里挖出更多的数据来。用过hive的朋友，我想或多或少都有类似的经历：一天下来，没跑几次hive，就到下班时间了。hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。一. 表连接优化 1...

2018-04-16 14:43:27 222

原创 hadoop 2.7.5集群搭建

1、准备三台机器，每天机器关闭防火墙，设置hosts文件，配置免密登录关闭防火墙servie iptables stopchkconfig iptables off && setenforce 0设置hosts192.168.140.128 node01 zk01 kafka01 storm01 maven flume192.168.140.1...

2018-04-16 00:32:38 312

原创为 elasticsearch安装插件可视化插件

为elasticsearch安装插件可视化插件严重参考这个文档，感谢！1)安装nodejs head是es的一个可视化插件由于head运行在node.js上，我们需要安装nodejs 注意:在root用户下执行yum install -y gcc-c++ make# curl --silent --location https://rpm.nodesource.com/s...

2018-04-16 00:30:56 1053

原创 hbase面试题

一、HBase的特点是什么 1.HBase一个分布式的基于列式存储的数据库,基于hadoop的hdfs存储，zookeeper进行管理。 2.HBase适合存储半结构化或非结构化数据，对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 3.HBase为null的记录不会被存储. 4.基于的表包含rowkey，时间戳，和列族。新写入数据时，时间戳更新，同时可以查询到以前的版本....

2018-04-16 00:25:12 641

原创 kafka

kafka1.Kafka介绍Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。Kafka是一个分布式消息队列：生产者、消费者的功能...

2018-04-16 00:21:29 414

原创 Hive简介

Apache HiveHive简介1.什么是 HiveHive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类 SQL 查询功能。本质是将 L SQL 转换为 e MapReduce 程序。主要用途：用来做离线数据分析，比直接用 MapReduce 开发效率更高2.Hive 架构2.1Hive 架构图...

2018-04-16 00:21:10 206

原创 Linux Redis4.0.2安装部署

Linux Redis 4.0.2 安装部署01 安装GCCyum -y install gcc gcc-c++ libstdc++-devel tcl -y02 下载安装包cd /export/software/wget http://219.238.7.71/files/403400000ABE0C0C/download.redis.io/releases/r...

2018-04-15 09:36:34 356

原创 Linux Mysql安装及远程权限开放

Linux Mysql 安装及远程权限开放01 安装服务端和客户端yum install mysql-server -yyum install mysql -y02 启动服务端service mysqld start03 启动客户端mysql04 修改root密码use mysql;UPDATE user SET Password...

2018-04-15 09:34:08 141

HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有两种方式： 1、通过get方式，指定rowkey获取唯一一条记录 2、通过scan方式，设置startRow和sto...

2018-04-15 09:31:27 378

原创 Ganglia安装部署

Ganglia监控Hadoop集群的安装部署详情请参见 http://boendev.iteye.com/blog/1750615一、安装环境CentOS6.5x86_64安装gmetad的机器：10.2.6.250 (服务端)安装gmond的机器：10.2.6.250，10.2.6.246，10.2.6.248，10.2.6.249浏览监控web页面的机器：10.2.6...

2018-04-15 09:15:29 472 1

原创 wordcount

MapReduce经过map阶段进行shuflle(洗牌),将获得的每个kv(key,value) 分发给reduce阶段,如果存在相同的key会给同一个ruduce task 任务去进行reduce.将相同的key 聚合在一个reduce task 任务中.shuffle必定会将相同的KV 分发给相同的reduce task wordCount案例的map阶段/** ...

2018-04-15 09:11:41 464

原创 zookeeper客户端

1.zookeeper1.1ZooKeeper特性全局数据一致：集群中每个服务器保存一份相同的数据副本，client无论连接到哪个服务器，展示的数据都是一致的，这是最重要的特征；可靠性：如果消息被其中一台服务器接受，那么将被所有的服务器接受。顺序性：包括全局有序和偏序两种：全局有序是指如果在一台服务器上消息 a在消息 b 前发布，则在所有Server上消息 a 都将在消息b前被发...

2018-04-15 09:09:56 208

原创 SparkSql

SparkSql1.sparkSQL概述Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。它是sparkSQL的底层抽象有多种方式去使用Spark SQL，包括SQL、DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎....

2018-04-15 09:06:48 361

原创 sparkStreaming

1、sparkStreaming它是一个可扩展，高吞吐具有容错性的流式计算。2、sparkStreaming特性1、易用性可以像编写离线批处理一样去编写流式程序可以使用java/python/R2、容错性保证数据恰好只被处理一次3、融合spark体系3、sparkStreaming原理Spark Streaming 是基于spark的流...

2018-04-15 09:05:25 581

原创 Spark简单介绍&安装步骤

Spark1.spark 概述spark概念基于内存的分布式计算系统,计算速度很快,只是用于数据的计算,不涉及到数据的存储.可以对接外部数据源(例如HDFS)Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Sp...

2018-04-15 09:03:43 1762

原创 Hive搭建&基本操作

1.Hive 安装部署 Hive 安装前需要安装好 JDK 和 Hadoop。配置好环境变量。根据元数据存储的介质不同，分为下面两个版本，其中 derby 属于内嵌模式。实际生产环境中则使用 mysql 来进行元数据的存储。## 内置 derby 版：解压 hive 安装包bin/hive 启动即可使用缺点：不同路径启动 hive，每一个 hive 拥有一...

2018-04-14 17:37:06 382

原创数据仓库

数据仓库1 ．数据仓库的基本概念数据仓库，英文名称为 Data Warehouse，可简写为 DW 或 DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（DecisionSupport）。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而...

2018-04-14 17:35:47 2053

原创 zookeeper安装

安装前需要安装好jdk 检测集群时间是否同步检测防火墙是否关闭检测主机 ip映射有没有配置下载安装包、解压tar -zxvf zookeeper-3.4.5.tar.gzmv zookeeper-3.4.5 zookeeper修改环境变量（注意：3台zookeeper都需要修改）vi /etc/profileexport ZOOKEEPER_HOME=...

2018-04-14 17:34:22 123

原创 storm的ACK

1.Storm任务提交的过程storm任务提交jar包时节点相互之间拷贝jar包都涉及到网络传输,所以一般都要实现序列化接口serialiazble执行过程client 提交jar包到nimbus节点 → nimbus把jar包保存在本地目录 →分配任务信息 → zookeeper → supervisor 通过任务感知机制去zk上面发现对应...

2018-04-14 17:32:44 241

原创 storm安装与kafka整合

1.storm是什么1.1storm的介绍storm是twitter公司开源贡献给apache的一款实时流式处理的一个开源软件，主要用于解决数据的实时计算以及实时的处理等方面的问题1.2storm的特点Storm是一个开源的分布式实时计算系统，可以简单、可靠的处理大量的数据流。Storm有很多使用场景：如实时分析，在线机器学习，持续计算，分布式RPC，ETL等等。St...

2018-04-14 17:30:54 4334 1

原创 flume

Apache Flume1 ．概述Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。Flume 的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flum...

2018-04-14 17:09:12 313

原创 Azkaban

AzkabanAzkaban介绍&安装: Azkaban是Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程; Azkaban使用job配置文件建立任务之间的相互依赖关系;并提供一个易于使用的web用户界面维护和跟踪你的工作流.Azkaban的功能特点: 提供功能清晰,简单医用的web UI页面提供...

2018-04-14 17:05:19 333

原创 Linux基础

一.VMware 支持两种类型的克隆：完整克隆链接克隆完整克隆是和原始虚拟机完全独立的一个拷贝，它不和原始虚拟机共享任何资源。可以脱离原始虚拟机独立使用。链接克隆需要和原始虚拟机共享同一虚拟磁盘文件，不能脱离原始虚拟机独立运行。但采用共享磁盘文件却大大缩短了创建克隆虚拟机的时间，同时还节省了宝贵的物理磁盘空间。通过链接克隆，可以轻松的为不同的任务创建一个独立的虚...

2018-04-03 16:56:57 165

原创时间服务器的搭建

一.服务器系统设置1.同步时间1.1 手动同步集群各机器时间date -s "2017-03-03 03:03:03"yum install ntpdate1.2 网络同步时间crontab 是 Unix 和 Linux 用于设置周期性被执行的指令。通过 crontab 命令，可以在固定间隔时间执行指定的系统指令或 shell 脚本。时间间隔的单位可 ...

2018-03-13 21:12:02 3336

superWe的博客