BigData
沙滩上的漫步者
我见青山多妩媚,料青山见我当如是
展开
-
HBase基础使用篇01
HBase高并发处理方案简图一、概述官网地址: http://hbase.apache.org/HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。特点大:一个表可以有上亿行,上百万列面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。结构稀疏:对于为空(NULL)的列,并不占用存储空间,因...原创 2019-03-19 22:16:03 · 394 阅读 · 0 评论 -
Flum基础实战
Flume 架构实战Flume是什么Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Fl...原创 2019-03-27 22:43:21 · 2382 阅读 · 0 评论 -
Hive基础使用
HiveHive介绍概述hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构...原创 2019-03-26 23:22:31 · 583 阅读 · 0 评论 -
kafka基础篇使用01
Kafka一、官网https://kafka.apache.org/intro一、概述Apache Kafka是一个分布式流处理平台具备以下三种特性:发布和订阅流式记录。类似于消息队列或者企业消息系统存储流式数据,并且有较好的容错流式数据处理应用场景:构造实时流数据管道,可以在系统或应用之间可靠的获取数据。(相当于MQ)构建实时流式应用程序,对这些流数据进行转换或者影响...原创 2019-03-22 18:04:37 · 533 阅读 · 0 评论 -
HBase基础使用03-HA集群搭建
HBase集群集群架构图HBase架构篇HBase架构组成HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成: HMaster 节点、HRegionServer 节点、 ZooKeeper 集群,而在底层,它将数据存储于HDFS中,因而涉及到HDFS的NameNode、DataNode等,总体结构如下:ZooKeeper集群用于:...原创 2019-03-22 16:26:43 · 246 阅读 · 0 评论 -
HBase基础使用02和MapReduce集成
HBase02HBase和MapReduce集成Maven依赖<!-- hadoop-hdhf所需依赖--> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</...原创 2019-03-22 16:22:17 · 266 阅读 · 0 评论 -
ZooKeeper使用教程
ZooKeeper使用教程一、概述官⽹网https://zookeeper.apache.org/介绍ZooKeeper是一个开源的分布式应⽤协调服务系统,主要⽤用来完成统一命名服务、状态同步服务、集群管理理、分布式应⽤用配置项的管理理等⼯工作。ZooKeeper(分布系统基础服务)介绍:分布式服务协调系统内部结构:树形层次空间(类似linux文件系统)a. 层次结构b. 节点...原创 2019-03-18 09:09:11 · 886 阅读 · 0 评论 -
ELK-快速入门使用
一、ELK概述ELK 是三个开源软件的缩写,分别表示: Elasticsearch , Logstash , Kibana 。ELK 通常用来构建日志分析平台、数据分析搜索平台等官方文档https://www.elastic.co/cn/products组件介绍Elasticsearch 是个开源分布式全文检索和数据分析平台。它的特点有:分布式,零配置,自动发现,索引自动分片,索引...原创 2019-03-18 09:02:21 · 1234 阅读 · 0 评论 -
ElasticSearch
前言apache lucene全文检索的工具包索引:提供查询效率 数据库索引: 主键索引、唯一索引(unique)、复合索引(对数据库中的多个字段创建一个索引)、普通索引等 create index 索引名 on table (column1,column2)全文检索;类似于使用字典过程 对数据预先构建索引,在查找的时通过索引匹配数据的过程就称为全文检索 创建索引:...原创 2019-03-18 08:55:19 · 597 阅读 · 0 评论 -
基于Hadoop生态体系搭建数据分析平台
基于Hadoop生态体系的数据分析平台一、项目设计架构图设计目标分析系统每日访问量PV(Page View)分析系统各个模块访问量MV(Model View)二、环境搭建安装Nginx并配置日志切割#安装gcc基本环境yum install gcc-c++ perl-devel pcre-devel openssl-devel zlib-devel wget#解压...原创 2019-03-27 22:45:54 · 849 阅读 · 0 评论