Hadoop生态
文章平均质量分 89
JLUBJTU
用技术成就自己
展开
-
Flink笔记
文章目录一、Flink简介1、Flink概念2、Flink特点3、Flink 和 Spark Streaming4、Flink on Yarn二、Flink运行架构1、Flink运行时的组件2、任务提交流程3、一些概念三、Flink流处理API1、Environment2、Source3、Transform4、Sink5、实现UDF函数2、富函数(Rich Functions)四、Flink中的Window1、window概述2、类型3、window的API五、时间语义与Wartermark1、时间语义2、原创 2020-08-10 19:50:10 · 801 阅读 · 0 评论 -
ElasticSearch入门学习
文章目录一、elasticsearch简介1、elasticSearch的使用场景2、与其他数据存储进行比较3、elasticsearch的特点3.1天然分片,天然集群3.2天然索引lucene 倒排索引结构二、elasticsearch的基本概念1、对象名词解释2、服务状态查询三、DSL语法四、关于shard的划分注意点1 shard太多带来的危害2 如何规划shard数量3 对Segment(段)的优化一、elasticsearch简介 ElasticSearch是一个基于Lucene的搜索服原创 2020-08-06 22:49:28 · 315 阅读 · 0 评论 -
文章目录一览表
文章目录快速掌握Maven快速Linux学习(常用命令)快速掌握ShellHadoop基础大数据之HDFS快速掌握大数据之HDFSMapReduce详细分析大数据之资源调度器YarnHadoop HA高可用详细用法大数据技术Zookeeper环境搭建史上最全的Hive知识点总结Kafka所有重要知识点Scala知识点大全史上最详细的HashMap总结MySQL面试题汇总MySQL索引redis...原创 2020-07-21 21:34:31 · 288 阅读 · 0 评论 -
MySQL面试题汇总
文章目录1、数据库三大范式是什么2、Char和VarChar的区别3、引擎相关4、使用索引查询一定能提高查询的性能吗?为什么5、事物的四大特性(ACID)介绍一下?6、什么是脏读?幻读?不可重复读?7、什么是事务的隔离级别?MySQL的默认隔离级别是什么?8、隔离级别与锁的关系9、按照锁的粒度分数据库锁有哪些?锁机制与InnoDB锁算法10、什么是死锁?怎么解决?11、数据库的乐观锁和悲观锁是什么?怎么实现的?1、数据库三大范式是什么第一范式:每个列都不可以再拆分。第二范式:在第一范式的基础上,非主键原创 2020-07-21 21:10:41 · 376 阅读 · 0 评论 -
MapReduce详细分析
一、MapReduce概述1、定义MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群 上。2、MR进程一个完整的MapR educe程序在分布式运行时有三类实例进程:**Mr AppMaster:**负责整个程序的过程调度及状态协调。MapTask:负责Map阶段的整个数据处理流程。ReduceTask:负责Reduce阶段的整个数据处理流程。3、常用数据序列化类型Java****类型Hadoop原创 2020-07-01 10:19:22 · 1407 阅读 · 0 评论 -
Hbase最全指南
文章目录一、 Hbase简介1、Hbase 定义2、 Hbase的数据模型3、 Hbase 的基本架构二、Hbase核心1、 写流程2、MemStore Flush3、 读流程4、BloomFilter5、StoreFile Compaction6、Region Split三、HBase预分区和RowKey设计⭐1、 HBase预分区2、 RowKey设计3、 列族设计原则四、HBase的优化方法1、 减少调整2、减少启停3、减少数据量4、 **Zookeeper会话超时时间**5、**优化HStore文件原创 2020-06-23 20:50:48 · 926 阅读 · 0 评论 -
Flume的使用技巧
1、Flume概述Flume是一个分布式的海量日志采集、聚合和传输的系统。Flume的主要的作用就是,实时的读取服务器本地磁盘的数据,将数据写入到HDFS。Agent:将数据以事件的形式从源头送至目的地。包括Source、Channel、Sink。Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、Taildir 、sequence gener原创 2020-06-04 22:58:40 · 363 阅读 · 0 评论 -
史上最全的Hive知识点总结
一、Hive的基本概念1、Hive是什么Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上(4)Hive不是数据库2、Hive架构元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的原创 2020-06-04 22:27:03 · 3702 阅读 · 0 评论 -
快速掌握大数据之HDFS
一、HDFS概述HDFS的定义HDFS的特点:优点:①高容错②适合处理大数据③可运行在廉价的机器上。缺点:①不适合低延时的数据处理②无法高效的对小文件进行存储③不支持并发的写入,文件的随机修改HDFS的组成HDFS 的文件块大小:HDFS中文件在物理上是分块存储的,块的大小可以灵活配置。Hadoop3中默认是128M。二、HDFS的常用Shell命令基本语法:hadoop fs 具体命令 或 hdfs dfs 具体命令——两者作用相同。①启动集群:start-d原创 2020-05-19 23:00:58 · 308 阅读 · 0 评论 -
Kafka所有重要知识点
一、Kafka的基本架构Kafka是一个分布式的基于发布/订阅模式的消息队列,(1)Producer :消息生产者,就是向kafka broker发消息的客户端;(2)Consumer :消息消费者,向kafka broker取消息的客户端;(3)Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。(4)Brok原创 2020-05-08 21:37:01 · 593 阅读 · 1 评论 -
大数据之HDFS
一、HDFS概述HDFS的定义HDFS的特点:优点:①高容错②适合处理大数据③可运行在廉价的机器上。缺点:①不适合低延时的数据处理②无法高效的对小文件进行存储③不支持并发的写入,文件的随机修改HDFS的组成HDFS 的文件块大小:HDFS中文件在物理上是分块存储的,块的大小可以灵活配置。Hadoop3中默认是128M。二、HDFS的常用Shell命令基本语法:...原创 2020-04-28 22:47:58 · 426 阅读 · 0 评论 -
大数据之资源调度器Yarn
1、Yarn的基本架构Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。2、Yarn的工作原理 可以将上图描述为: (1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Appli...原创 2020-04-25 22:49:24 · 535 阅读 · 0 评论 -
Hadoop基础
一、基础了解1、Hadoop的优势①高可靠性:Hadoop底层维护多个数据副本,所以即使是Hadoop某个计元素或存储出现故障,也不会导致数据的丢失。②高扩展性:在集群间分配任务,可以方便的扩展数以千计的节点。③高效性:Hadoop是并行工作。④高容错:能够自动将失败的任务重新分配。2、Hadoop的组成3、HDFS架构①NameNode(NN):存储文件的元数据,如文件名、文件...原创 2020-04-23 16:42:13 · 728 阅读 · 0 评论 -
大数据技术Zookeeper环境搭建
一 、 Zookeeper入门1、 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应. ...原创 2020-04-23 11:26:03 · 558 阅读 · 0 评论 -
Hadoop HA高可用详细用法
一 Hadoop HA 概述1)所谓HA(High Availablity),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障SPOF(Single Points Of Failure)。4)NameNode主要在以下...原创 2020-04-23 10:22:49 · 405 阅读 · 0 评论