fanren224的博客

业精于勤荒于嬉,行成于思毁于随

hbase集群安装

HBase介绍 HBase是一个分布式的、面向列的开源数据库,就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般...

2018-11-28 23:56:37

阅读数 58

评论数 0

hive原理和安装

简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分...

2018-11-21 20:32:02

阅读数 41

评论数 0

zookeeper集群安装

1、下载解压 wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.4.11/zookeeper-3.4.11.tar.gz tar -zxvf zookeeper-3.4.11.tar.gz &a...

2018-11-21 13:25:49

阅读数 47

评论数 0

flume写入kafka

1、flume节点上,创建写入kafka的配置文件fowardkafka.conf [root@slave4] /usr/local/flume$ vim conf/fowardkafka.conf Flume2KafkaAgent.sources=mysource Flume2KafkaAgen...

2018-11-14 11:40:31

阅读数 57

评论数 0

KafkaOffsetMonitor kafka监控平台

KafkaOffsetMonitor简述   KafkaOffsetMonitor是有由Kafka开源社区提供的一款Web管理界面,这个应用程序用来实时监控Kafka服务的Consumer以及它们所在的Partition中的Offset,你可以通过浏览当前的消费者组,并且每个Topic的所有Par...

2018-11-13 22:41:51

阅读数 77

评论数 0

分布式文件系统HDFS

查看目录下的文件信息 hadoop fs -ls / 查看根目录下文件与文件夹 hadoop fs -lsr / 递归查看根目录下所有文件与文件夹 hadoop fs -ls 默认查看hdfs下的/user/<当前用户> 例...

2018-11-11 20:16:18

阅读数 44

评论数 0

Hadoop之MapReduce过程,单词计数WordCount

单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版“Hello World”,该程序的完整代码可以在Hadoop安装包的src/example目录下找到。单词计数主要完成的功能:统计一系列文本文件中每个单词出现的次数,如下图所示。 WordCount的处理...

2018-11-11 19:36:18

阅读数 798

评论数 0

hadoop ha高可用分布式集群搭建

环境: centos7.3.1611 内核3.10.0-514.el7.x86_64 jdk1.8.0_161 hadoop2.7.6 机器: 节点角色 主机名 ip 主 master 192.168.255.130 从1 slave1 192.168.255.121 ...

2018-11-11 16:25:00

阅读数 146

评论数 0

大数据生态

大数据平台架构 一般 数据收集:fluentd,flume,logstash 数据存储:hdfs 数据处理:mapreduce,spark,storm流式处理 数据展示:kibana 其他 数据查询:主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中ol...

2018-11-06 10:41:23

阅读数 84

评论数 0

hadoop2.7.6伪分布式集群搭建

/etc/profile文件中添加 export HISTTIMEFORMAT="%F %T " 注意T后面有空格

2018-05-28 20:44:58

阅读数 484

评论数 0

HDFS机架感知功能原理(rack awareness)

resource 1、将本地用户hanli的相关信息转化为puppet代码 [root@master] /etc/puppet/manifests$ puppet resource user hanli user { 'hanli': ensure =&...

2018-04-07 04:42:08

阅读数 177

评论数 0

ambari-大数据平台搭建工具

https://baike.baidu.com/item/Ambari/19697889?fr=aladdin https://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/ http://ambari.apache...

2018-03-26 14:05:54

阅读数 328

评论数 0

hdfs基础

抛出问题:HDFS文件系统为什么不适用于存储小文件? 这是和HDFS系统底层设计实现有关系的,HDFS本身的设计就是用来解决海量大文件数据的存储.,他天生喜欢大数据的处理,大文件存储在HDFS中,会被切分成很多的小数据块,任何一个文件不管有多小,都是一个独立的数据块,而这些数据块的信息则是保存在...

2018-03-26 09:45:26

阅读数 58

评论数 0

消息队列比较

rabbitmq activemq kafka zeromq rocketmq redis

2018-03-26 09:44:42

阅读数 30

评论数 0

kafka集群安装

安装环境 slave1 192.168.255.121 slave2192.168.255.122 slave3192.168.255.123 java环境 (可选)zookeeper环境 安装步骤 1、下载解压 wget http://mirrors.tuna.tsinghua....

2018-03-26 09:44:37

阅读数 671

评论数 0

MapReduce原理

Linux 的软件安装目录是也是有讲究的,理解这一点,在对系统管理是有益的 /usr:系统级的目录,可以理解为C:/Windows/, /usr/lib理解为C:/Windows/System32。 /usr/local:用户级的程序目录,可以理解为C:/Progrem Files/。用户自己编译...

2018-03-26 09:44:22

阅读数 289

评论数 0

kafka原理

为什么需要kafka? Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息中间件,只是粗略的讲解,目前kafka已经可以做更多的事情。 举个例子,生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,消...

2018-03-26 09:44:09

阅读数 553

评论数 0

zookeeper原理

一、为什么zookeeper要部署奇数台服务器? **所谓的zookeeper容错是指,当宕掉几个zookeeper服务器之后,剩下的个数必须大于宕掉的个数,也就是剩下的服务数必须大于n/2,zookeeper才可以继续使用,无论奇偶数都可以选举leader。**5台机器最多宕掉2台,还可以继续...

2018-03-26 09:43:37

阅读数 4271

评论数 0

flume简介和单节点安装

doing

2018-03-26 09:35:30

阅读数 65

评论数 0

数据倾斜

0x00 前言 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 郑重声明: 话题比较大,技术要求...

2018-01-10 03:17:25

阅读数 116

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭