大数据
文章平均质量分 85
哈工大的许政
Hello,world
展开
-
HBase的学习和使用
HBase的学习和使用本文是基于CentOS 7.3系统环境,进行HBase的学习和使用CentOS 7.3一、HBase的简介1.1 HBase基本概念(1) HBase的定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库(2) HBase的作用...原创 2020-07-15 11:12:51 · 16508 阅读 · 0 评论 -
Kafka的学习和使用
Kafka的学习和使用本文是基于CentOS 7.3系统环境,进行Kafka的学习和使用CentOS 7.3一、Kafka的简介1.1 Kafka基本概念(1) 什么是KafkaKafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域(2) Kafka的作用解耦和异步将强依赖的两个数据上下游系统,通过消息队列进行解耦,可以实现上下游的异步通信削峰缓解数据上下游两个系统的流速差1.2 Kafka基础架构为了方便横向扩展,并提高吞吐量,一个topi原创 2020-06-20 15:37:57 · 22028 阅读 · 0 评论 -
Flume的学习和使用
Flume的学习和使用本文是基于CentOS 7.3系统环境,进行Flume的学习和使用CentOS 7.3一、Flume的简介1.1 Flume基本概念(1) 什么是FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。(2) Flume的目的Flume最主要的作业就是,实时读取服务器本地磁盘的数据,将数据写入HDFS1.2 Flume基本组件(0) Flume工作流程Source采集数据并包装成Event,并将Event原创 2020-06-18 15:25:32 · 26198 阅读 · 1 评论 -
Hive的学习和使用
Hive的学习和使用本文是基于CentOS 7.3系统环境,进行hive的学习和使用CentOS 7.3一、Hive的简介1.1 Hive基本概念(1) 什么是hiveHive是用于解决海量结构化日志的数据统计工具,是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能(2) Hive的本质Hive的本质就是将HQL转化成MapReduce程序1.2 Hive优缺点(1) 优点操作接口采用类SQL语法,提供快速开发的能力(简单、容易)原创 2020-05-29 19:36:07 · 24098 阅读 · 0 评论 -
MapReduce的学习和使用
MapReduce的学习和使用本文是基于CentOS 7.3系统环境,进行MapReduce的学习和使用CentOS 7.31. MapReduce简介1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是基于Hadoop的数据分析计算的核心框架1.2 MapReduce处理过程主要分为两个阶段:Map和ReduceMap负责把一个任务分解成多个任务Reduce负责把分解后多任务处理的结果进行汇总1.3 MapReduce的优点1. MapRed原创 2020-05-23 11:24:29 · 27790 阅读 · 1 评论 -
Zookeeper的学习和使用
Zookeeper的学习和使用本文是基于CentOS 7.3系统环境,进行Zookeeper的学习和使用CentOS 7.31. Zookeeper简介1.1 什么是ZookeeperZookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。1.2 Zookeeper工作机制Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就原创 2020-05-19 08:55:45 · 23587 阅读 · 0 评论 -
Ambari安装大数据集群
Ambari安装大数据集群本文是基于CentOS 7.3系统环境,学习和使用大数据集群:CentOS-7.3-x86_64-DVD-1611.isoambari-2.6.0.0-centos7.tar.gzHDP-2.6.3.0-centos7-rpm.tar.gzHDP-UTILS-1.1.0.21-centos7.tar.gz一、集群配置(1)集群列表大数据集群由5台虚拟...原创 2020-03-19 00:22:51 · 12058 阅读 · 0 评论 -
Hadoop操作HDFS的相关命令(python)
Hadoop操作HDFS的相关命令本文是基于CentOS 7系统环境,搭建Hadoop集群环境,并在主节点上进行测试CentOS 7hadoop-2.7.1一、Hadoop相关命令(1) 查看HDFS的文件结构hadoop fs -lsr / (2) 新建文件夹hadoop fs -mkdir /test_xz/input(3) 上传本地文件到HDFShado...原创 2019-09-27 09:03:41 · 20217 阅读 · 0 评论 -
大数据技术
大数据技术spark2010年前后(第三次信息化浪潮),物联网、云计算、大数据相关技术的产生,以解决信息爆炸问题。一、环境搭建(1) java安装在线安装sudo apt-get install openjdk-7-jre openjdk-7-jdk离线安装tar -xzvf jdk-8u201-linux-x64.tar.gzsudo mv jdk1.8.0_201/...原创 2019-08-28 22:28:43 · 11823 阅读 · 0 评论