大数据
IT142546355
这个作者很懒,什么都没留下…
展开
-
Atlas 2.0.0编译与CDH6.2.1集成
前言Atlas能够提供开放式的元数据管理和治理功能,能够构建表与表之间的血缘关系,并且支持对表和构建表的过程进行分类管理。对于平台数据量越来越大,元数据管理显得至关重要,元数据有效的表达了数据的来源和流向以及依赖,Atlas的出现,有效的解决了元数据的管理问题。环境依赖Atlas2.2.0的编译,依赖环境如下:JDK_8u151及以上版本 Maven3.5.0及以上 Python2.7(centos7.5自带,无需安装)编译编译说明由于我的大数据环境是CDH6.2.1,需要修改原创 2020-08-08 23:52:27 · 1514 阅读 · 17 评论 -
Storm集群搭建及测试
目录概述核心概念架构一、部署说明二、Storm配置和部署1. 下载2. 配置3. 服务启动三、wordcount测试1. 程序编写2. 提交Storm集群运行3. 常用命令概述在过去十几年里,数据处理发生了革命性的变化。Hadoop以及相关的框架技术使我们能够存储和处理以往不能想象规模的数据。但是很遗憾,Hadoop及相关框架并不能实时处理...原创 2019-12-06 16:26:30 · 597 阅读 · 1 评论 -
Spark之Spark Streaming
目录概述准备一、TCP socket集成1. nc服务安装2. 测试二、kafka集成1. 服务启动2. 测试参考文章概述Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。可以从许多数据源(例如Kafka,Flume,Kinesis或TCP套接字)中提取数据,并可以使用高级功能(如map,r...原创 2019-10-28 17:45:25 · 234 阅读 · 0 评论 -
Spark集成Hive和Hbase实现离线数据分析
目录前言一、Spark+Hive1. 配置2.测试二、Spark+Hbase1. 配置2. 测试前言Spark SQL是Spark处理结构化数据的模块。本节中将Spark SQL和Hive以及Hbase集成,实现离线数据的分析。Hive和Hbase的集成请参阅:Hive+Mysql+Hbase集成配置实现离线数据分析说明:三台机器的主机名分别为:bigdat...原创 2019-10-24 15:10:35 · 1381 阅读 · 0 评论 -
Spark之Spark SQL、DataFrame和Dataset
目录概述Spark SQLDataset and DataFrame入门起点:SparkSession创建DataFrameDataFrame的操作编程方式运行SQL查询全局临时视图创建DataSet与RDD的互操作使用反射推断schema编程方式指定schema概述Spark SQL是Spark处理结构化数据的模块。不同于基础的Spar...翻译 2019-10-20 17:19:29 · 339 阅读 · 0 评论 -
Spark之RDD
目录概述一、RDD创建Parallelized CollectionsExternal Datasets二、RDD操作TransformationsActions三、RDD持久化概述在较高级别上,每个Spark应用程序都包含一个驱动程序,该程序运行在用户main函数中并且在集群上执行各种并行操作。Spark提供最主要的抽象是弹性分布式数据集(RDD),它是跨...翻译 2019-10-17 14:58:15 · 204 阅读 · 0 评论 -
Spark运行模式配置及测试
目录一、spark standalone模式1. 配置2. 服务启动与测试二、spark on yarn模式1. 配置2. 测试2.1 spark-shell2.2 spark-submitSpark支持3种集群模式,分别是standalone、spark on yarn(hadoop2)、以及spark on mesos模式。其中standalone模式是sp...原创 2019-10-14 16:08:42 · 455 阅读 · 0 评论 -
Spark源码编译
目录一、环境配置1. maven配置2. spark配置3. Scala安装二、编译安装及测试1. 编译2. 本地模式测试Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架。由于Hadoop的版本是2.5,官网不提供编译版本供下载,本实例将...原创 2019-10-10 11:35:12 · 291 阅读 · 0 评论 -
Hue大数据可视化分析
目录一、环境说明二、Hue下载安装1. 下载2. 编译安装3. 基础配置三、框架集成1. HDFS集成2. YARN集成3. Hive集成4. Mysql集成5. Hbase集成四、测试Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hado...原创 2019-09-19 11:42:34 · 2098 阅读 · 0 评论 -
Hive+Mysql+Hbase集成配置实现离线数据分析
目录一、hive的安装配置1. 下载2. 配置二、hive测试1. 下载测试数据2. 建库及导入数据三、hive和hbase集成1. 配置1.1 配置文件的修改1.2 jar包的引用1.3 建表2. 测试hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为Map...原创 2019-09-17 11:48:44 · 1400 阅读 · 0 评论 -
flume+hbase+kafka集成部署
目录一、架构图二、flume的安装和配置1. 下载安装2. 配置2.1 日志收集节点配置2.2 日志聚集节点配置2.3 Flume的二次开发三、模拟程序开发四、服务启动测试1. 服务启动1.1 zookeeper1.2 HDFS1.3 Hbase1.4 kafka2. 测试Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合...原创 2019-09-10 17:26:49 · 1111 阅读 · 0 评论 -
kafka的配置和分布式部署
目录一、相关概念介绍二、下载和配置1. 下载2. 配置三、服务启动和测试1. 创建Topic2. 服务启动3.测试Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。kafka的分布式部署依赖于zookeeper。安装配置zookeeper请参阅:zookeeper的配置和分布式部署说明:三台机器的主机名分别为:big...原创 2019-09-01 15:06:09 · 567 阅读 · 0 评论 -
Hbase的配置和分布式部署
Table of Contents概述实现原理、运行机制1.Hbase和传统数据库的区别和联系:2.region寻址定位(三级寻址)3.运行机制3.1 master服务器3.2 region服务器一、下载和配置1. 下载2. 配置二、hbase命令行基本操作概述HBase是建立在Hadoop文件系统之上的分布式面向列的数据库,Hbase表是...原创 2019-08-31 20:48:37 · 908 阅读 · 0 评论 -
Hadoop YARN-HA架构和部署
目录一、YARN-HA的配置1. 修改yarn-site.xml文件二、测试ResourceManager是YARN集群资源管理和任务调度的关键部件,和HDFS的NameNode节点服务一样,为了提高高可靠性,我们需要做YARN-HA(YARN High Availability),即设置多个ResourceManager节点服务,当活动的ResourceManager节点服务器宕...原创 2019-08-22 15:47:03 · 377 阅读 · 0 评论 -
Hadoop HDFS-HA架构和部署
目录一、HDFS-HA配置和测试1. 修改hdfs-site.xml2. 修改core-site.xml3. 服务启动二、自动故障转移1. 修改hdfs-site.xml文件2. 修改core-site.xml文件3. 服务启动试想一个场景,每个hdfs集群只有一个namenode节点,如果这个namenode节点不可用,那么整个hdfs集群服务都不可用,这样集...原创 2019-08-20 17:50:10 · 276 阅读 · 0 评论 -
zookeeper的配置和分布式部署
目录一、下载和配置1.下载2.配置二、服务启动和测试ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。说明:三台机器的主机名分别为:bigdata.centos01、bigda...原创 2019-08-18 15:22:12 · 285 阅读 · 0 评论 -
Hadoop ssh无秘钥登录和集群时间同步
目录一、集群ssh无秘钥登录二、集群时间同步1.时间服务器配置2.从节点服务器配置一、集群ssh无秘钥登录场景:试想集群里面的机器特别多的时候,一台一台的机器去启动HDFS和YARN的服务是特别费劲的。能否有办法在主节点能启动所有主节点和从节点的服务,而不需要通过sbin/hadoop-daemon.sh等类似命令去一台台的去启动和停止服务,本小节给你答案。注意:如果h...原创 2019-08-17 15:45:29 · 205 阅读 · 0 评论 -
Hadoop介绍以及集群搭建
目录知识要点MapReduce策略理念工作流程分片(split)的划分map任务数量和reduce任务数量的确定shuffle过程YARN架构概述工作流程一、环境准备1.centos单机配置2.虚拟机克隆二、搭建HDFS集群1.配置文件修改2.启动服务3.测试三、配置yarn和mapreduce1.配置文件修改2.启动...原创 2019-08-02 17:16:19 · 355 阅读 · 0 评论