Java大数据
文章平均质量分 97
炳烛之明科技
一日成王,磨剑十年。
逝者如斯,用之取之!
展开
-
{{π型人才培养计划}}HadoopHA
一、Hadoop HA 角色分配HadoopNode01HadoopNode02HadoopNode03ZookeeperZookeeperZookeeperNameNode(Active)NameNode( Standby)ZKFCZKFCJournalNodeJournalNodeJournalNodeDataNodeData...原创 2021-06-04 00:09:24 · 98 阅读 · 0 评论 -
{{π型人才培养计划}}Redis 指令文档
Redis安装解压redis压缩包进入redis源码包。执行make ,如果出现致命错误 。执行 make MALLOC=libc安装执行 make install PREFIX=/usr/redis 安装在/usr/redis文件夹下使用进入redis/bin目录执行./redis-server 开启redis服务连接redis ./redis-cli -...原创 2021-06-03 23:50:14 · 58 阅读 · 0 评论 -
{{π型人才培养计划}}Apache Spark RDD
Apache Spark一、概述Apache Spark™ is a unified analytics engine for large-scale data processing.Spark是一个使用大数据处理的统一分析引擎(计算)官网地址:http://spark.apache.org/官方介绍: Lightning-fast unified analytics engine...原创 2021-06-03 23:49:07 · 344 阅读 · 2 评论 -
Spark SQL
Spark SQL一、概述SQL:类似于Hive,数据仓库(Data WareHourse)工具,简化Spark应用开发http://spark.apache.org/docs/latest/sql-programming-guide.htmlSpark SQL是Spark中一个模块,用以对结构化数据进行处理。SparkSQL在RDD之上抽象出来Dataset/Dataframe 这两个类...原创 2020-06-23 00:28:21 · 264 阅读 · 0 评论 -
Apache Storm_GZY_MBY
Apache Storm一、概述http://storm.apache.org/Apache Storm是一款免费开源的分布式实时计算的框架(流处理)Apache Storm可以非常容易并且可靠的处理无界的流数据,进行实时的分析处理。Apache Storm支持多种编程语言(1.x版本Clodure 2.x版本Java重构)。适用场景:实时分析,在线的机器学习,持续计算,...原创 2020-06-23 00:27:18 · 141 阅读 · 0 评论 -
Kafka_GJF_MBY
一、概述消息队列消息的概念消息的是系统间通信的载体,是分布式应用不可获取的一部分。目前系统间发送消息有两种种类。同步消息即使消息:打电话、表达提交、WebService、Dubbo|SpringCloud要求消息发送方和接受放必须同时在线,一般都需要和接收方建立会话。异步消息发送方不理会对方是否在线,一般不需要和接收方建立会话,在接受方上线后,一般会获取发送方发送的消息。...原创 2020-06-23 00:26:36 · 341 阅读 · 0 评论 -
JavaBigData_Spark先知
// Scala入门案例 ---- demo01package com.baizhi.demo01import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}// 五大元素object SparkWordCount { // main def main(args: Arra...原创 2020-06-23 00:25:03 · 92 阅读 · 0 评论 -
Scala
作者:高志远微信:gzy2001Hadoop生态体系知识串讲Scala编程语言一、概述http://scala-lang.org专门为计算而生的语言,Scala将(Java后者C++)面向对象设计和函数式编程结合在一起的简洁的高级编程语言。而函数式编程强调的是通过传递算子(代码|函数)实现大规模数据集的本地计算。Scala虽然是一门独立的编程语言,但是它可以无缝和Java语言对接。S...原创 2020-06-23 00:24:31 · 271 阅读 · 0 评论 -
20191209Spark
EE原创 2020-06-23 00:23:30 · 81 阅读 · 0 评论 -
Kafka_GJF
一、概述消息队列消息的概念消息的是系统间通信的载体,是分布式应用不可获缺的一部分。目前系统间发送消息有两种种类。同步消息即使消息:打电话、表达提交、WebService、Dubbo|SpringCloud要求消息发送方和接受放必须同时在线,一般都需要和接收方建立会话。异步消息发送方不理会对方是否在线,一般不需要和接收方建立会话,在接受方上线后,一般会获取发送方发送的消息。显而...原创 2020-06-23 00:17:55 · 300 阅读 · 0 评论 -
Apache Flink_JZZ_MBY
Apache Flink概述Flink 是构建在数据流之上的一款有状态 流计算框架,通常被人们称为第三代大数据分析方案。第一代大数据处理方案: Hadoop Map Reduce 静态批处理 | Storm 实时流计算 2014年9月,两套独立的计算引擎。 难度大第二代大数据处理方案:Spark RDD 静态皮批处理、Spark Streaming(DStream) 实时流计...原创 2020-06-23 00:16:37 · 433 阅读 · 0 评论 -
Apache Flink_JZZ166_MBY
Apache FlinkFlink发展史第一代大数据处理方案:2006年Hadoop的MapReduce-批/HDFS, 2014年9月份 apache Storm-流第二代大数据处理方案:2014年2 Spark RDD -批处理 ,DStream - 流 (批模拟流 )延迟高第三代大数据处理方案:2014年12 Flink DataStream-流,Dataset- 批 吞吐量高,低延...原创 2020-06-23 00:14:45 · 694 阅读 · 0 评论 -
ZooKeeper_GJF_MBY
一、概述ZooKeeper是一个分布式应用所涉及的分布式的、开源的协调服务。是Google的Chubby的开源实现Zookeeper最早起源于雅虎的研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很多大型的系统需要依赖一个类似的系统进行分布式协调,但是这些系统往往存在分布式单点问题。所以雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架。在立项初期,考虑到很多项目都是用动物的...原创 2020-06-23 00:12:45 · 275 阅读 · 0 评论 -
Hadoop_GJF_MBY
一、概述1.1 大数据概念大数据是需要新处理模式才能具有更强的决策力 、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产1.2 大数据面临的问题数据的存储:单机存储有限,如何解决海量存储?(分布式、集群等)数据的分析:单机的算力 有限,如何在合理时间内对数据完成成本运算?1.3 大数据的特点4V Volume 数据量 Velocity 时效 Variety ...原创 2020-06-23 00:11:55 · 701 阅读 · 0 评论 -
Hive_MBY_GJF
一、概述由FaceBook开源用于解决海量结构化日志的数据统计工具。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是...原创 2020-06-23 00:08:35 · 1087 阅读 · 0 评论 -
Apache Storm_GZY_MBY
Apache Storm一、概述http://storm.apache.org/[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zIgffFI8-1576205010811)(http://storm.apache.org/images/storm-flow.png)]Apache Storm是一款免费开源的分布式实时计算的框架(流处理)Apache St...原创 2020-06-23 00:05:16 · 115 阅读 · 0 评论 -
Apache Storm_GZY_MBY
Apache Storm一、概述http://storm.apache.org/[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zIgffFI8-1576205010811)(http://storm.apache.org/images/storm-flow.png)]Apache Storm是一款免费开源的分布式实时计算的框架(流处理)Apache Sto...原创 2020-06-23 00:04:23 · 99 阅读 · 0 评论 -
Baizhi Memcached GJF
一、概述传统关系型数据:Oracle 、 Mysql 指标容量 2000Wtps 1500个响应时间:10MS缓存类型:1.本地缓存2.客户端缓存3.分布式缓存缓存的设计指标:容量 key-valuetps 12W成本 (64G 128G )响应时间常用缓存技术:ehcache oscache memcached redis tair二、Me...原创 2020-06-22 23:51:59 · 160 阅读 · 0 评论 -
Kafka Streaming_GZhY_MBY
Author:gaozhyBlog:http://www.gaozhy.cnCSDN: https://blog.csdn.net/qq_31871785Kafka Streaming概述Kafka Streams是一个用于构建应用程序和微服务的客户端库,其中的输入和输出数据存储在Kafka集群中。它结合了在客户端编写和部署标准Java和Scala应用程序的简单性,以及Kafka服务器...原创 2020-06-23 00:00:14 · 582 阅读 · 0 评论 -
Apache Spark Structured Streaming
Spark Structured Streaming一、概述http://spark.apache.org/docs/latest/structured-streaming-programming-guide.htmlStructured Streaming构建在Spark SQL基础之上的一个可靠且容错的流数据处理引擎。简短来说,Structured Streaming提供快速、可靠、容...原创 2020-06-22 23:56:24 · 260 阅读 · 0 评论 -
Apache Structured Streaming GZhY166
Spark Structured Streaming一、概述http://spark.apache.org/docs/latest/structured-streaming-programming-guide.htmlStructured Streaming构建在Spark SQL基础之上的一个可靠且容错的流数据处理引擎。简短来说,Structured Streaming提供快速、可靠、容...原创 2020-06-22 23:53:17 · 161 阅读 · 0 评论 -
Apache Flink_JZZ158_MBY
Apache Flink概述Flink 是构建在数据流之上的一款有状态流计算框架。通常被人们称为第三代大数据分析方案。第一代大数据处理方案: Hadoop Map Reduce 静态批处理 | Storm 实时流计算 2014年9月,两套独立的计算引擎。 难度大第二代大数据处理方案:Spark RDD 静态皮批处理、Spark Streaming(DStream) 实时流计算...原创 2020-01-07 23:31:10 · 717 阅读 · 0 评论 -
Spark Stanalone HA_JZZ158_MBY
Standalone集群构建基础环境准备物理资源:CentOSA/B/C-6.10 64bit 内存2GB主机名IPCentOSA192.168.12.143CentOSB192.168.12.144CentOSC192.168.12.145节点与主机映射关系主机节点服务CentOSANameNode、ZKFC、Z...原创 2020-01-07 23:16:34 · 214 阅读 · 0 评论 -
Spark SQL_JZZ158_MBY
Spark SQLSpark SQL是构建在Spark RDD之上一款ETL(Extract Transformation Load)工具(类似Hive-1.x-构建在MapReduce之上)。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据SparkSQL提供的信息优化底层计算任务。目前为...原创 2020-01-07 23:15:35 · 338 阅读 · 0 评论 -
Spark DStreams_JZZ158_MBY
Spark DStreamsDStreams是什么DStreams是构建在Spark RDD之上的一款流处理工具,意即Spark DStreams并不是一个严格意义上的流处理,底层通过将RDD 在时间轴上分解成多个小的 RDD-micro batch流 | 批处理计算类型数据量级计算延迟输入数据输出计算形式批处理MB=>GB=>TB几十分钟|几个...原创 2020-01-07 23:13:39 · 330 阅读 · 0 评论 -
Apache Structured Streaming_JZZ158_MBY
Structured Streaming什么是Structured Streaming泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎,该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Structured Streaming底层毁掉用SparkSQL 引擎对流数据做...原创 2020-01-07 23:08:30 · 114 阅读 · 0 评论 -
Apache kafka_GZhY_MBY
Kafka笔记一、概述http://kafka.apache.org/Apache Kafka® is a distributed streaming platform——分布式的流数据平台Kafka具备三项关键能力:发布订阅记录流(Record),类似于消息队列(MQ)或者企业级消息系统(记录流可以重复进行处理,处理后不会直接删除))存储记录流,以一种容错持久化方式实时处理加工...原创 2020-01-07 16:51:15 · 147 阅读 · 0 评论 -
Apache Flume_GZhY_MBY
Apache Flume一、概述http://flume.apache.org/Flume是一个分布式、可靠、高可用的高效的日志数据收集、聚合以及传输系统,它简单和灵活的架构是基于数据流的。Flume具备强大的容错保证机制,有多种容错和恢复保证。Flume使用简单可扩展的数据模型允许开发在线分析处理应用。架构事件对象被定义数据流中一个单元,Event数据流的有效载荷(body)为采集到...原创 2020-01-06 23:00:14 · 179 阅读 · 0 评论 -
Apache Hive_GZhY_MBY
大数据课程Hive编程1. 引言什么是Hive1. Hive是apache组织提供的一个基于Hadoop的数据仓库产品 数据库 DataBase OLTP 数据量级小 数据价值高 数据仓库 DataWarehouse OLAP 数据量级大 数据价值低2. Hive基于Hadoop 底层数据存储 HDFS...原创 2020-01-06 22:35:40 · 113 阅读 · 0 评论 -
Apache HBase_GZhY_MBY
HBase一、概述http://hbase.apache.orgApache HBase是一个基于Hadoop的数据库,它可靠、分布式适合结构化大数据的存储。Apache HBase是Google BigTable开源实现,它开源、分布式、数据多版本、基于列存储的非关系型数据库。HBase建立在Hadoop的HDFS的基础之上。列存储和行存储列存储和行存储指的是数据在存储介质中的组织方...原创 2020-01-06 21:01:30 · 137 阅读 · 0 评论 -
Apache HBase 读写详细流程_GZhY_MBY
HBase读写详细流程HBase定义HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建大规模结构化存储集群。HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处...原创 2020-01-06 21:00:37 · 95 阅读 · 0 评论 -
Apache Hadoop_GZhY_MBY
Hadoop笔记一、概述大数据大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据的5V特点(IBM提出):Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)Veracity(真实性)Had...原创 2020-01-06 20:58:19 · 333 阅读 · 0 评论 -
Apache MapReduce的容错机制_GZhY__MBY
MapReduce的容错机制Failures在现实世界中,难免遇到用户代码错误、进程崩溃、机器宕机等情况。使用Hadoop的一个好处是它有能力处理这些失败,使你的job能够成功完成。我们需要考虑以下实体的失败:task、application master、node manager 、resource manager。Task Failure考虑第一种情况task失败。最常见的task 失...原创 2020-01-06 18:03:19 · 109 阅读 · 0 评论