大数据
文章平均质量分 71
LeiKe_
一只小菜鸟,志在远方。
展开
-
基于docker搭建单机ambari+hdp环境
基于docker安装ambari+hdp环境,适用于测试环境;原创 2023-01-17 10:14:38 · 700 阅读 · 0 评论 -
Hive-学习笔记
文章目录前言(Hive 1.2.1)1.概念2.优缺点3.Hive架构原理4.运行机制5.Hive与数据库的比较6.Hive数据类型7.DDL数据定义8.DML数据操作9.查询10.函数11.压缩12.存储13.优化14.练习Demo总结前言(Hive 1.2.1)本文分享本菜鸟的Hive学习笔记Hive广泛应用于大数据数仓项目,是大数据必学技术之一。文章涉及的内容比较多,最好参照目录直接跳转。本菜鸟QQ:599903582比心心 ~提示:以下是本篇文章正文内容,下面案例可供参考1.概原创 2021-01-08 16:24:59 · 437 阅读 · 0 评论 -
ElasticSearch-学习笔记
文章目录前言1.简介2.Es与MySql的对比3.Es与其他数据存储组件比较4.特点5.倒排索引6.B+Tree7.ElasticSearch中的基本概念8.ElasticSearchRepository和ElasticSearchTemplate的使用9.FSCrawler(ElasticSearch的FS搜寻器。)10.RESTful API11.中文分词12.动态同义词(自定义)13.JavaAPI(实现ES的工具类,采用了高级API)总结前言本文分享本菜鸟的ElasticSearch笔记。内原创 2020-12-28 21:57:05 · 1818 阅读 · 3 评论 -
Canal-学习笔记分享
文章目录前言1.官方链接2.简介3.主从复制原理图4.canal 工作原理5.配置6.Canal的Java客户端7.资料链接总结前言本文分享本菜鸟的Canal学习笔记。Canal可以通过监控MySql的binlog日志实时监控MySql的数据变化,广泛引用于大数据实时处理领域。一起学习,一起进步。本人QQ:599903582笨鸟先飞,熟能生巧。比心心~提示:以下是本篇文章正文内容,下面案例可供参考1.官方链接https://github.com/alibaba/canal2.简原创 2020-11-27 15:11:53 · 248 阅读 · 0 评论 -
Zookeeper-学习笔记分享
文章目录前言1.概述2.工作机制3.Zookeeper特点4.数据结构5.应用场景6.选举机制7.命令操作8.监听器原理9.ZookeeperApi资料链接:总结前言本文分享本菜鸟的Zookeeper学习笔记。Zookeeper主要为集群组件协调工作提供服务。相对内容比较少。本菜鸟QQ:599903582笨鸟先飞,熟能生巧。比心心~提示:以下是本篇文章正文内容,下面案例可供参考1.概述为分布式应用提供协调服务的Apache项目2.工作机制设计模式来看: 观察者模式负责原创 2020-11-27 13:53:44 · 410 阅读 · 0 评论 -
Kafka-学习笔记分享
文章目录前言1.定义2.Kafka基本架构3.Kafka命令行操作4.Kafka工作流程5.topic的存储架构6.index文件和log文件详解7.分区8.数据的可靠性(副本)9.ISR10.ack应答机制11.故障处理12.实现Exactly Once13.Kafka消费者方式14.offset的维护15.Kafka高速读写数据16.Zookeeper在Kafka中的作用17.选举流程18.KafkaProducerApi原理19.Producer API20.Consumer API21.数据漏消费和原创 2020-11-25 16:06:43 · 793 阅读 · 3 评论 -
Spark-学习笔记分享
文章目录前言概述Spark和MR的数据处理流程对比Spark的组成示意图Spark模块Spark特点Spark的运行模式Spark官方测试案例SparkWebUISpark通用运行简易流程Spark核心概念RDD特点WordCount案例数据分区算子转换算子行动算子序列化血缘关系:RDD的持久化和检查点:RDD的分区器:文件数据的读取和存储广播变量:累加器:自定义累加器:案例:练习: 计算每个省份广告点击量的TopNSparkSQLRDD和DataFrame的交互:DataSetRDD、DataFrame、原创 2020-11-24 08:32:46 · 1319 阅读 · 0 评论