![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 87
kiss火葱花
这个作者很懒,什么都没留下…
展开
-
Centos7编译安装OpenLDAP(2.5.11)
1、准备工作因为OpenLDAP会依赖openssl-1.1.1版本,因此需要检查环境的openssl版本,如果低于openssl-1.1.1,则需要重新安装查看当前环境openssl版本,不满足条件,则先进行openssl-1.1.1安装[root@control-plane local]# openssl versionOpenSSL 1.0.2k-fips 26 Jan 20171.1 openssl-1.1.1安装1)从openssl官网https:...原创 2022-03-31 16:24:42 · 2139 阅读 · 0 评论 -
单机部署Kube-batch
1、环境信息 利用虚拟机,通过Minikube搭建kubernetes环境,安装和使用kube-batch,虚拟机基础环境参数如下: 操作系统 Centos 7 (Linux 3.10.0-1160.el7.x86_64) CPU 8 核 内存 4 GB 磁盘 50 GB 2、kubernetes安装1)关闭防火墙、s...原创 2021-10-18 09:32:31 · 277 阅读 · 0 评论 -
工作流调度引擎——Oozie
一、什么是OozieOozie由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,用于Hadoop平台的工作流调度。由Oozie Client和Oozie Server两个组件构成,Oozie Server运行于Java Servlet(Tomcat)容器中的web程序。1、组件特性1)Oozie不仅实现多个MR工作流调度,也可以将多种异构程序合成一个工作流。使用Oozie时,若前一个任务执行失败,后一个任务就不会被调度。2)Oozie工作流是一个DAG,当需要执行多个关原创 2020-08-31 16:54:50 · 921 阅读 · 0 评论 -
集中权限管理框架——Ranger
一、什么是RangerApache Ranger是提供集中式权限管理的框架,可以实现Hadoop生态中的HDFS、YARN、Hive、Kafka、Storm和Solr等组件进行细粒度的权限访问控制。同时提供审计功能,如日志审计,记录各个组件资料的访问信息。1、组件特性1)基于策略(Policy)的访问权限模型;2)通用的策略同步与决策逻辑,方便控制插件的扩展接入;3)内置常见系统(HDFS、YARN、HBase等)的控制插件,且可扩展;4)内置基于LDAP(轻量级目录访问协议)、原创 2020-08-24 17:08:46 · 1570 阅读 · 0 评论 -
交互式SQL查询引擎——Impala
一、什么是ImpalaImpala是Cloudera公司推出的,提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能,与Hive(底层使用MR引擎)相比,具备更快的处理速度。1、组件特性(1)基于内存进行计算,能够对PB级数据进行交互式实时查询、分析(2)无需通过MR,直接与HDFS和HBase交互(3)兼容HiveSQL,支持Hive基本查询操作(4)具有数据仓库特性,可对hive数据直接做数据分析(5)支持Data Local数据本地化,减少网络数据传输(原创 2020-08-27 09:19:48 · 840 阅读 · 0 评论 -
大数据存储引擎——Kudu
一、什么是Kudu【Fast Analytics on Fast Data】是一个既支持随机读写,又支持OLAP(Online analytical processing)分析的大数据存储引擎,平衡HDFS和HBase随机读写和批量分析性能的存储引擎。1、组织架构Master Server:负责监听集群tserver状态、管理元数据catalog tablet等功能Table Server:负责数据tablet存储,并向client提供数据读写服务。对于给定tabl...原创 2020-08-26 14:28:21 · 1142 阅读 · 1 评论 -
分布式消息订阅-发布系统——Kafka
一、什么是KafkaKafka是一个高吞吐量的分布式消息订阅-发布系统,其具备高性能、持久化、多副本备份、横向扩展能力。通过生产者向队列里写消息,消费者从队列里取消息进行业务逻辑,相对于传统的消息队列,实现业务逻辑的解耦,削峰和异步处理。二、基本概念主题(Topic):是特定类型的消息流。消息是字节的有效负载(Payload),话题是消息的分类名或种子(Feed)名。生产者(Producer):是能够发布消息到主题的任何对象。服务代理(Broker):已发布的消息保存在一组服务器中,它们原创 2020-08-12 09:29:00 · 1137 阅读 · 0 评论 -
大数据之分布式协调服务——Zookeeper
一、什么是Zookeeper ZooKeeper是Hadoop的正式子项目,是Google的Chubby一个开源的实现,为分布式应用提供高效,可靠的分布式协调服务,提供诸如统一命名、状态同步、集群管理、配置同步、分布式锁等分布式基础服务。二、相关概念1、事务 事务是Zookeeper系统中能够改变服务器状态的操作,一般包括数据节点的创建和删除,数据节点内容更新和客户端会话创建于失效等操作。对于每一个事务请求,Zookeeper都会分配一个全局唯一的事务ID,用zxid表示,通常是一个64位的1原创 2020-07-31 18:12:52 · 597 阅读 · 0 评论 -
快速检索与存储系统——Elasticsearch
一、什么是Elasticsearch? ELASTICSEARCH(弹性搜索):是一款开源的分布式、RESTful风格的搜索和数据分析引擎,它底层基于Apache Lucene开源库进行封装,其不仅仅提供分布式多用户能力的全文搜索引擎,还可以被准确形容为:1、一个分布式的实时文档存储,每个字段可以被索引与搜索;2、一个分布式实时分析搜索引擎;3、能胜任上百个节点的扩展,并支持PB级别额结构化和非结构化数据。二、Elasticsearch基本概念全文搜索(Full-text Search)原创 2020-07-22 10:30:42 · 659 阅读 · 0 评论 -
大数据——数据流式处理
一、概念 大数据中包含两种处理方式:流处理和批处理。流处理:即流式处理。流式处理假设数据的潜在价值是数据的新鲜度,需要尽快处理得到结果。在这种方式下,数据以流的方式到达。在数据连续到达的过程中,由于流携带了大量数据,只有小部分的流数据被保存在有限的内存中。流处理方式用于在线应用,通常工作在秒或毫秒级别。 批处理:批处理方式中,数据首先被存储,然后再分析。MapReduce是非常重要的...原创 2020-07-22 10:47:49 · 13326 阅读 · 0 评论 -
分布式存储系统——HBase
一、HBase简介 Google三驾马车:GFS、MapReduce和BigTable代表Google针对大数据存储与处理提出的三种框架。其中,GFS是面向大规模数据密集型应用的、可伸缩的分布式文件系统(HFDS);MapReduce是处理海量数据的分布式并行计算的执行框架(MapReduce);BigTable是处理海量数据的分布式结构化数据存储系统。 因为BigTa...原创 2020-08-12 15:35:43 · 1536 阅读 · 0 评论 -
Java开发+大数据开发-凉面考点总结
1、HDFS数据完整性校验 (a)校验和:Hadoop在写入数据到HDFS上时,会为每一个固定长度(默认是512字节)的数据执行一次“校验和”,“校验和”的值和数据一起保存起来。在传输前和传输后分别计算一个校验和,比较两者之间的值,常采用32位循环校验码的方式(CRC32)。 (b)数据块检测程序DataBlockScanner:DataNode运行着一个后台进程(DataBl...原创 2019-08-22 21:22:44 · 222 阅读 · 0 评论 -
大数据——Spark任务执行流程
Spark任务的执行流程文字详细描述通过对比和阅读源码,我们大致将Spark任务提交到运行分为以下20步进行描述,具体过程如下:1.将我们编写的程序打成jar包2、调用spark-submit脚本提交任务到集群上运行3、运行Sparksubmit的main方法,在这个方法中通过反射的方式创建我们编写的主类的示例对象,然后调用mian方法,开始执行我们的代码(注意:我们的spark程...原创 2019-07-12 14:29:04 · 464 阅读 · 0 评论 -
大数据Hadoop生态圈介绍
大数据Hadoop生态圈-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务...原创 2019-07-12 14:22:47 · 51936 阅读 · 4 评论