![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 79
大数据平台一般以Hadoop中的HDFS、HIVE、HBase、MapReduce、ES为代表。加上Spark等。
swg321321
这个作者很懒,什么都没留下…
展开
-
Kafka使用Java管理主题和分区
Kafka通过Java管理主题和分区,实现创建主题、删除主题、查看所有主题、查看主题详情、删除消息记录等操作。原创 2022-08-22 22:01:21 · 681 阅读 · 0 评论 -
Kafka在Java客户端的配置参数
Kafka采用java时,生成者配置参数说明与默认值原创 2022-08-21 12:45:34 · 2406 阅读 · 0 评论 -
Kafka客户端Java代码使用
Kafka采用Java实现生产者生产消息,和消费者消费消息。消费者:避免重复消费的方法以及消息提交Offset。以及Krb认证。原创 2022-08-19 22:41:16 · 884 阅读 · 0 评论 -
MapReduce读取定长文件入库Hive表Orc格式
MapReduce,读取定长文件,并转换为Orc数据格式,并写入到Hiive表中,创建分区并指定分区的文件。其中包含Orc格式定义和Orc文件写入数据。原创 2022-08-18 21:48:52 · 556 阅读 · 0 评论 -
Kafka设计架构与原理
Kafka的基本概念与整体架构,以及基于ZooKeeper实现元数据管理和负载均衡。生成者、消费者、主题、副本、AR、ISR、OSR、HW、LEO等原创 2022-08-14 11:13:31 · 750 阅读 · 0 评论 -
Hbase架构与存储组件结构与功能
HBase的整体架构’、与数据架构,并说明每个组件的功能。原创 2022-08-13 19:07:45 · 1994 阅读 · 0 评论 -
HBase基本介绍和HA实现原理
Hbase基于ZooKeeper实现高可用原理,和Hbase架构图原创 2022-08-12 20:08:30 · 960 阅读 · 0 评论 -
YARN基本介绍与HA
YARN 基本介绍和HA用原理:包含Resource Manger(资源管理器)、Scheduler(调度器)、Applications Manger(应用程序管理器)、 Application Master、Node Manger、Container(容器)原创 2022-08-10 20:41:37 · 706 阅读 · 0 评论 -
ZooKeeper经典应用场景
通过ZooKeeper,实现数据发布/订阅,负载均衡、命名服务、分布式协调/通知。分布式锁的金典应用。原创 2022-08-09 22:15:26 · 607 阅读 · 0 评论 -
Zookeeper采用Java客户端API
Zookeeper,在JAVA中使用,包含创建会话,权限控制、创建节点、更新节点数据、获取子节点列表、删除节点等。原创 2022-08-08 20:29:32 · 164 阅读 · 0 评论 -
Zookeeper分布式一致性协议
Zookeeper分布式一致性,包含消息广播、奔溃恢复、ZXID。原创 2022-08-07 16:34:33 · 528 阅读 · 0 评论 -
Zookeeper设计目标与基本概念
Zookeeper的设计目标、简介、基本概念ZNode、ACL、Watch、Session。原创 2022-08-06 11:58:41 · 338 阅读 · 0 评论 -
分布式一致性协议Paxos
Paxos分布式一致协议,原理、流程、算法的讲解。原创 2022-08-06 10:51:22 · 170 阅读 · 0 评论 -
Orc文件格式定义和数据写入
大数据平台使用ORC文件,中定义ORC文件格式,和数据写入示例。其中包含List,MAP,STRUCT,DECIMAL等格式。一般作为Hive数据存储的格式。原创 2022-07-19 21:27:43 · 768 阅读 · 0 评论 -
Spark构建DAG(有向无环图)
Spark构建RDDDAG,将RDDDAG的拆分,拆分后DAGScheduler,DAGScheduler转换为TaskScheduler,TaskScheduler到具体的Worker和Task执行。原创 2022-07-06 21:20:04 · 3869 阅读 · 1 评论 -
Spark原理与架构
Spark架构,Spark运行模式、Spark运行流程。原创 2022-06-26 20:20:45 · 748 阅读 · 0 评论 -
MapReduce原理与机制
MapReduce原理与机制、MapReduce组件与组件是如何相互调用原创 2022-06-26 10:04:29 · 758 阅读 · 0 评论 -
Spark处理Dataset中数据
Java Spark flatMap,Map,filter,Orc,Parquet。其中flatMap一个对象转多个对象。map一个对象转一个对象。Spark文件写到HDFS文件上。Dataset执行类似SQL查询。Spark写出按照自己想要的顺序写出原创 2022-06-23 16:02:08 · 2197 阅读 · 0 评论 -
Parquet文件格式定义和数据写入
Parquet数据格式定义和写入:基础数据类型、Group数据类型。Decimal、List、Map、Struct。原创 2022-06-22 16:58:22 · 2551 阅读 · 0 评论 -
MapReduce读定长文件写入Parquet文件
MapReduce:读取定长文件,输出Parquet文件。定义Parquet文件格式。写入Parquet数据定义。包含格式Decimal、List,Struct、Map格式定义和数据写入原创 2022-06-19 15:35:28 · 413 阅读 · 0 评论 -
Spark执行HiveSQL以及Hive自定义函数
Spark执行HiveSQL,其中包括执行Hive自定义函数。Spark读取文件。包含Spark SQL等生成可执行的RDD,执行优化,Catalog原创 2022-06-14 16:38:27 · 1477 阅读 · 0 评论 -
Hive自定义函数
HIVE:自定义函数UDF,UDTF、UDAF。创建函数原创 2022-06-15 16:30:44 · 484 阅读 · 0 评论