大数据
文章平均质量分 92
爱学习的老冰棍
一杯数据入喉,自此编程别回头
展开
-
DolphinScheduler 1.x使用经验篇及bug解决篇
这里是小编对DolphinScheduler使用经验以及解决的bug分享原创 2022-08-16 11:23:38 · 1294 阅读 · 3 评论 -
Dolphin Scheduler 2.x版本部署篇
DS基础部署篇原创 2022-08-08 17:32:10 · 2343 阅读 · 2 评论 -
大数据之Kafka(二)
大数据之Kafka(二)3. Kafka架构深入3.1 Kafka 工作流程及文件存储机制3.2 Kafak生产者3.2.1 分区策略3.2.2 数据可靠性保证3.2.3 Exactly Once语义3.3 Kafka消费者3.3.1 消费方式3.3.2 分区分配策略3.3.3 offset的维护不排除内部的topic3.3.4 消费者组案例3.4 Kafka 高效读写数据3.5 Zookeeper在Kafka中的作用3.6 Kafka事务3.6.1 Producer 事务3.6.2 Consumer事务(原创 2020-09-28 19:28:03 · 2034 阅读 · 0 评论 -
大数据之Kafka
大数据之Kafka1 . Kafka概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式1.3 Kafka 基础架构2 Kafka 快速入门2.1 集群规划2.1.2 Kafka 下载2.1.3 集群部署2.2 Kafka 命令行操作3 Kafka 架构深入3.1 Kafka工作流程及文件存储机制1 . Kafka概述1.1 定义Kafka是一个分布式的基于分布、订阅模式的消息队列,主要应用于大数据实时处理领域。至于什么是消息队列和分布、订阅模式,待会给原创 2020-09-26 16:18:12 · 497 阅读 · 0 评论 -
大数据之Flume(一)
大数据之Flume(一1. Flume 概述1.1 Flume定义1.2 Flume基础框架1.2.1 Agent1.2.2 Source1.2.3 Sink1.2.4 Channel1.2.5 Event2. Flume 入门2.1 Flume 安装部署2.1.1 安装地址2.1.2 安装部署2.2 Flume 入门案例2.2.1 监听端口数据官方案例2.2.2 实时监控单个追加文件2.2.3 实时监控目录下多个新文件2.2.3 实时监控目录下的多个追加文件今天的日志收集框架Flume是我认为的一个很原创 2020-09-23 20:46:35 · 189 阅读 · 0 评论 -
大数据之Hive(二)
大数据之Hive(二)3 Hive数据类型3.1 基本数据类型3.2 集合数据类型3 Hive数据类型3.1 基本数据类型Hive数据类型Java数据类型长度例子tinyintbyte1byte有符号整数20smallintshort2byte有符号整数20intint4byte有符号整数20bigintlong8byte有符号整数20floatfloat单精度浮点数3.14159doubledouble双精度浮点原创 2020-09-20 17:53:12 · 188 阅读 · 0 评论 -
大数据之Hive(一)
大数据之Hive(一)1. Hive基本概念1.1 什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive 的架构原理2.Hive安装2.1 Hive安装地址2.2 Mysql安装2.3 Hive 安装部署2.4 Hive元数据配置到MySql2.4.1 拷贝驱动2.4.2 配置Metastore到Mysql2.5 启动Hive2.5.1 初始化元数据库2.5.2 启动metastore和hiveserver22.5.3 HiveJDBC 访问2.5.4 Hive访问2.6原创 2020-09-14 20:13:46 · 240 阅读 · 0 评论 -
大数据之HA配置步骤
1. 在/opt下新建ha目录,并将hadoop安装包拷贝一份sudo mkdir /opt/hasudo chown atguigu:atguigu /opt/hacp -r /opt/module/hadoop-3.1.3 /opt/harm -rf /opt/ha/hadoop-3.1.3/data /opt/ha/hadoop-3.1.3/logs2. 修改/opt/ha/hadoop-3.1.3的配置文件core-site.xml<?xml version="1.0" e原创 2020-09-13 23:26:44 · 502 阅读 · 0 评论 -
大数据之Zookeeper
大数据之Zookeeper1. Zookeeper入门1.1 概述1.2特点1.3 数据结构1.4 应用场景2. Zookeeper的安装本地安装部署3.Zookeeper操作3.1 分布式安装部署3.2 客户端命令行操作3.3 API 操作3.3.1 idea中maven环境搭建3.3.2 创建Zookeeper客户端4. Zookeeper 原理4.1 节点类型4.2 Stat结构体4.3 监听器原理(ZAP)4.4 选举机制4.5 写数据流程5.总结1. Zookeeper入门1.1 概述Zo原创 2020-09-12 23:01:49 · 544 阅读 · 0 评论 -
大数据之Yarn
大数据之Yarn1. Yarn 基本架构2. Yarn 工作机制3. 作业提交全过程总结4. 资源调度器4.1 先进先出调度器(FIFO)4.2 容量调度器(Capacity Scheduler)4.3 公平调度器(Fair Scheduler)5. 容量调度器多队列提交案例1. 需求2. 如何配置3.实操一下Yarn就是管理整个集群资源的操作平台,你可以看作是资源池,而MapReduce是需要Yarn的资源支持的运算程序。介绍完,我会把整个的Yarn、HDFS、MapReduce等串联起来,看他们是如原创 2020-09-11 19:30:33 · 628 阅读 · 0 评论 -
大数据之二MapReduce
大数据之(二)MapReduce3、MapReduce框架原理3.1 InputFormat数据输入3.1.1切片与MapTask并行度决定机制3.1.2 Job提交流程源码和切片源码详解3.2 MapReduce工作流程3.3 shuffle机制3.3.1 shuffle机制3.3.2 Partition分区3.3.3 WritableComparable排序3、MapReduce框架原理3.1 InputFormat数据输入MapReduce的数据流#mermaid-svg-AWHbmH73原创 2020-09-09 00:39:14 · 413 阅读 · 0 评论 -
大数据之HDFS
1、HDFS概述1.1HDFS产出背景及定义HDFS产生背景随着数据量的指数式增长,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务原创 2020-09-06 17:37:12 · 933 阅读 · 0 评论 -
大数据之Hadoop入门
1、大数据概论我接触大数据准确来说是在我上大二的时候,我在跟我的系主任一起做项目的时候,那个时候处理的国外的数据,大约是由500W的数据,当时我用的舍友的笔记本,直接卡到打不开,也就是在那个时候,才有了大数据的概念。好了,进入正题!1.大数据概念大数据:指无法在一定时间范围内用日常的软件工具进行分析、处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长和多样化的信息资产。所以学习大数据就是主要解决海量数据的存储和海量数据的分析计算问题。2.大数据特原创 2020-09-04 21:26:27 · 2808 阅读 · 0 评论 -
大数据学习之正则表达式
前天在写Shell的时候感觉正则表达式真的是非常的重要,这也是我之前在处理数据时经常会用的比较多的地方,今天就来给大家做一个详细的介绍,冲!1、正则表达式的定义1.理解正则表达式是你所定义的模式模板,Linux工具可以用它来在过滤结构化数据、半结构化数据及非结构化数据时使用你定义好的正则表达式进行匹配,从大量的数据中过滤出你想要的特定数据。可参考下图理解正则表达式利用通配符来描述数据流中的一个或多个字符。我们常在Linux中使用其来确定数据,在之前我们在介绍Shell工具的时候就使用过“.原创 2020-09-03 13:54:33 · 2079 阅读 · 0 评论 -
大数据学习之Shell
1、Shell概述我们知道,一台机器是由硬件组装起来的,它还有操作系统,Windows、Linux、Mac等,我们在Linux里面介绍过,而我们今天讲的Shell就是在基于Linux内核的基础上,接收应用程序(用户命令),然后调用起来操作系统的内核来分配资源,进行指令的运行,我们可以参考下图理解#mermaid-svg-NoG3iJVR6vIUfyXn .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermai原创 2020-09-01 21:11:18 · 2498 阅读 · 4 评论