![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 82
羽落风起
乐观积极的生活,用梦想浇灌希望的种子,不管风和日,还是狂风暴雨,活出自己的色彩。
展开
-
hadoop集群优化(一):ntpd时间同步
hadoop集群htpd时间同步原创 2023-03-12 14:25:34 · 598 阅读 · 0 评论 -
hadoop集群安装(五):编写集群控制脚本
编写hadoop集群控制脚本原创 2022-11-29 10:09:36 · 486 阅读 · 0 评论 -
hadoop集群安装(四):安装hadoop集群
hadoop集群安装配置,设置hdfs、yarn、MapReduce文件,启动并验证hadoop服务原创 2022-11-25 10:59:07 · 1775 阅读 · 0 评论 -
hadoop集群安装(三):创建同步工具并安装jdk
创建集群同步脚本,安装jdk原创 2022-11-24 11:25:25 · 783 阅读 · 0 评论 -
hadoop集群安装(二):克隆服务器集群并免密
hadoop集群各节点虚拟机配置原创 2022-11-23 10:20:29 · 626 阅读 · 0 评论 -
hadoop集群安装(一):创建模型虚拟机
搭建hadoop集群,vmware基础虚拟机创建原创 2022-11-22 09:38:31 · 522 阅读 · 0 评论 -
hadoop单机版安装
hadoop单机版安装原创 2022-11-08 14:27:24 · 1279 阅读 · 0 评论 -
yarn任务调取器
yarn任务调取器算法和特点原创 2022-10-09 14:39:13 · 186 阅读 · 0 评论 -
hive-udf
hive udf相关技术信息、代码实现、实际操作。原创 2022-08-12 14:41:50 · 784 阅读 · 0 评论 -
hive基本数据类型和范围
文章目录说明分享数据类型数值型日期字符串总结说明本博客每周五更新一次。最近一次工作,因数据异常造成表值为null,记录下hive数据类型知识,方便快速查验。分享大数据博客列表开发记录汇总个人java工具库 项目https://gitee.com/wangzonghui/object-tool包含json、string、集合、excel、zip压缩、pdf、bytes、http等多种工具,欢迎使用。数据类型数值型名字字节数范围TINYINT1-12原创 2022-05-20 09:19:01 · 1692 阅读 · 0 评论 -
flink(十五):udf自定义函数
文章目录说明分享资料种类标量函数说明实例表值函数说明实例聚合函数说明代码实例表值聚合函数说明代码实例总结2022-04-08说明本博客每周五更新一次。自定义函数(UDF)是一种Flink 扩展开发机制,可在查询语句里实现自定义的功能逻辑。自定义函数可用 JVM 语言(例如 Java 或 Scala)或 Python 实现,推荐java或scala。分享大数据博客列表开发记录汇总个人java工具库 项目https://gitee.com/wangzonghui/object-tool原创 2022-04-08 09:08:23 · 5081 阅读 · 5 评论 -
HBase控制台命令
文章目录说明分享详情基础操作命名空间表操作查询复杂查询总结说明本博客每周五更新一次。最近一次项目维护中,发现缺少 HBase 控制台命令的博客归档,更新记录一下,填补缺失。分享大数据博客列表开发记录汇总个人java工具库 项目https://gitee.com/wangzonghui/object-tool包含json、string、集合、excel、zip压缩、pdf、bytes、http等多种工具,欢迎使用。详情基础操作打开HBase控制台:hbase shell原创 2022-04-01 09:21:17 · 397 阅读 · 0 评论 -
oozie控制台命令
文章目录说明分享命令总结说明本博客每周五更新一次。Apache oozie是hadoop平台重量级开源工作流任务调度工具,支持sh、jar、sql等多种方式开发任务,工作流支持并发、顺序执行,流程通过xml配置。分享大数据博客列表开发记录汇总命令启动任务:oozie job -oozie http://localhost:11000/oozie -config ./job.properties -runjob.properties 目录下执行停止任务:oozie job原创 2022-03-11 13:59:45 · 3053 阅读 · 4 评论 -
yarn rest操作
文章目录说明分享资料操作总结说明本博客每周五更新一次。偶然知道 yarn 支持rest操作,惊喜中自觉知识狭隘,补充记录下。分享大数据博客列表开发记录汇总资料官方yarn rest接口文档网址操作查看指定队列的所有任务:GET http://<rm http address:port>/ws/v1/cluster/apps?queue=对列名查看指定任务的详细信息:GET http://<rm http address:port>/ws/v1/cl原创 2022-03-01 17:43:20 · 475 阅读 · 0 评论 -
spark(八):SparkSql
文章目录说明资料优势运行方式优化器及执行计划整体流程自定义优化器自定义执行计划代码实例指定Schema格式case class方式结果数据保存到数据库总结说明本博客每周五更新Spark Sql模块用于处理结构化数据,结构化数据指DataFrame数据。Spark sql是从shark发展而来,shark则是为了兼容Hive数据库,实现sql任务。资料Spark Sql官网地址优势简化数据操作,Spark Sql支持在DataFrame基础上实现sql语句操作,降低了数据操作的技术门槛原创 2021-12-24 12:11:35 · 1513 阅读 · 0 评论 -
spark(七):DataSet
文章目录说明分享资料优势代码实例DataFrame和DataSet的区别总结说明本博客周五更新本文记录spark 分布式数据类型DataSet的基本原理和使用方法。DataSet是Spark1.6添加的分布式数据集合,Spark2.0合并DataSet和DataFrame数据集合API,DataFrame变成DataSet的子集。DataSet继承RDD优点,并使用Spark SQL优化的执行引擎。支持JVM对象构建,支持函数式转换(map/flatmap/filter)等多种操作分享大原创 2021-12-17 17:42:21 · 4028 阅读 · 0 评论 -
Spark(六):DataFrame
文章目录说明分享记录特性接口一般处理流程优点缺点代码实例spark与RDD对比总结说明由于某些原因,上周五未发布博客未,本文补上。DataFrame是一种spark 1.3版本提供Spark SQL接口下的分布式数据集,继承自DataSet数据集,该概念最早由R语言和Pandas库(Python)提出。DataFrame更像传统数据库里的表,除了数据外还包含更多的辅助信息,如列名、列值和列的属性,同时支持一些复杂的数据格式。从API应用的角度,DataFrame提供的API层次更高,比RDD编程方原创 2021-12-15 12:05:42 · 4005 阅读 · 0 评论 -
spark(五):RDD API接口
文章目录说明分享接口说明mapfilterflatMapmapPartitionsmapPartitionsWithIndexmapWithflatMapWithcoalescerepartitionrandomSplitglomunion并集distinct总结说明本文记录一部分Spark RDD接口Scala代码实现。分享大数据博客列表接口说明map对RDD中的每个元素执行一个指定函数产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应,实例如下:v原创 2021-12-03 17:45:14 · 1459 阅读 · 0 评论 -
hive-sql+beeline+导入导出
文章目录说明sqlbeeline表数据导入导出总结说明本博客每周五更新一次。本文记录hive知识,主要内容包括sql语句、beeline工具和表数据的导出和导入。sql添加添加字段:alter table 库名.表名 add columns(字段名 字段类型,字段名 字段类型)添加分区:alter table 库名.表名 add if not exists partition (分区名='值',分区名='值');添加数据:insert into 库名.表名 values("one"原创 2021-11-05 12:09:21 · 2438 阅读 · 0 评论 -
spark(四):RDD介绍
文章目录说明分享什么是RDDRDD生命周期创建RDDRDD变换RDD缓存RDD结果处理RDD特性总结说明本博客每周五更新一次。RDD 是spark计算引擎重要的数据结构,使用RDD开发业务,必须深入学习使用它。分享大数据博客列表什么是RDDRDD(Resilient Distributed Dataset) 弹性分布式数据集,spark中最重要数据结构概念,代表一个不可变、可分区、可并行计算的集合,逻辑上是一个数据集,物理上可以分块分布在不同的机器上并发运行。RDD具有数据流模型的原创 2021-10-29 12:33:41 · 1468 阅读 · 0 评论 -
spark(三):相关概念
文章目录说明分享spark相关概念RDD(Resilient Distributed Dataset)DAG(Directed Acycle Graph)ApplicationDriver ProgramSpark Context/SessionCluster ManagerDeploy ModeWorker NodeExecutorStageJobsoltTaskpartitionNarrowDependencyShuffleDependency总结说明本博客每周五更新一次。Spark是大数据平台原创 2021-10-22 12:08:36 · 135 阅读 · 0 评论 -
spark(二):本地安装
说明本博客每周五更新一次。本文介绍win10系统下spark安装,通过安装辅助理解spark。分享大数据博客列表安装模式spark有四种安装模式,具体如下:模式名称说明单机模式单台机器部署,主要用于开发测试Standalone模式多台机器构建Master+Slave的Spark集群,任务运行在spark集群中,数据量不多推荐使用。Spark On yarnSpark任务提交到hadoop集群yarn上,不需要额外构建Spark集群Spark原创 2021-10-15 12:04:15 · 641 阅读 · 0 评论 -
spark(一):生态机构与运行流程
文章目录说明分享spark生态Spark CoreSpark SQLSpark StreamingSpark MLLibSpark Graphxspark 架构整体架构运行流程细节说明总结说明Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Sp原创 2021-10-08 12:19:17 · 300 阅读 · 0 评论 -
hdfs纠删码
说明本博客每周五更新一次。纠删码是hadoop3提供新的数据备份方案,和原副本方向相比,通过计算方式,使用更少的存储,以达到数据安全的目标。纠删码策略以路径设置单元,该路径下所有存储文件,都以设置策略存储,默认RS-6-3-1024k。如使用其他策略需提前开启。当某节点数据单元或效验单元丢失,总数据单元和效验单元数不低于可恢复数,hadoop集群将在一段时间后,自动恢复该节点数据。分享大数据博客列表记录命令纠删码命令:hdfs ec查看支持的纠删码编码:hdfs ec -lis原创 2021-09-24 12:13:18 · 559 阅读 · 0 评论 -
kafka(五):消费组信息提取
文章目录说明分享环境实现maven代码总结2021-09-17说明本博客每周五更新一次。本文功能性博文,提取kafka所有消费组相关信息,整理后,提供为prometheus。分享大数据博客列表环境kafka2.3.0实现maven<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactI原创 2021-09-17 12:41:58 · 349 阅读 · 0 评论 -
大数据(四)大数据采集
文章目录说明分享数据采集种类数据转换dataxSqoopflume数据传输kafkapulsarhdfs-over-ftp总结2021-09-10说明本博客每周五更新一次。数据处理分为入库、计算和输出,本文主要分享数据入库。分享大数据博客列表数据采集数据采集是大数据平台数据处理流程的第一步,如何让数据以合适的效率和方式在大数据平台落地,根据场景不同,有着不同方案。一般情况如下。实时数据量巨大,要求绝对的效率,单位时间无法处理意味着数据丢失,一般这种情况下,源数据不做任何转换,如原创 2021-09-10 12:34:04 · 1032 阅读 · 3 评论 -
大数据(三)大数据计算引擎
文章目录说明分享大数据计算引擎批处理MapReducetez流批处理Flinkspark总结说明本博客每周五更新一次。介绍过大数据平台的搭建、应用和存储,本期分享下大数据计算。分享大数据博客列表大数据计算引擎什么是计算引擎?计算引擎就是一种计算规则的高度抽象聚合体,使用者按照指定的方式编写对应接口代码,然后执行就能得到需要的结果(前提没有bug)。大数据计算场景分为两个种:批处理(历史文件)和流处理(实时数据)处理,日常看到计算引擎划分:第一代:批处理代表MapRedu原创 2021-09-03 08:56:18 · 2828 阅读 · 0 评论 -
大数据(二)大数据存储
文章目录说明分享大数据存储特性和要求特性要求大数据存储现状hadoop系优点缺点非hadoop系优点缺点总结说明本博客每周五更新一次。大数据存储是大数据平台的基石,数据的存储方式直接决定数据使用效率,平台的搭建与维护成本。所有内容理论为主,不牵涉太多专业知识,目标是简单易懂。分享大数据博客列表大数据存储特性和要求特性大数据存储基本依托分布式架构(大于一台服务协同完成存储和计算的架构),将数据拆分后存储到多台服务器。为实时掌控各服务器任务状态、数据存储情况,指定某台服务器作为管理原创 2021-08-27 12:44:24 · 737 阅读 · 0 评论 -
大数据(一)大数据平台和应用简述
文章目录说明分享什么是大数据?大数据平台搭建大数据应用总结2021-08-20说明本博客每周五更新一次。本文主介绍大数据是什么,现有软件架构和主流框架有哪些,具体应用是什么,还有个人的一些拙见。所有内容理论为主,不牵涉太多专业知识,目标是简单易懂。分享大数据博客列表什么是大数据?我常问自己,可一直没有一个很好的答案,直到一次电视综艺节目中,一个企业老板问询大数据求职者时,他的回答让我豁然开朗。大概意思:大数据重点是大,T、P级数据超过了普通单台计算机的存储和计算上限,大数据就是存储和原创 2021-08-20 12:55:13 · 1452 阅读 · 0 评论 -
spark MLlib训练原理和使用
说明sparkMLlib是Spark提供的可扩展的机器学习库。MLlib中已经包含了一些通用的学习算法和工具,如:分类、回归、聚类、协同过滤、降维以及底层的优化原语等算法和工具,MLlib提供的API主要分为以下两类。spark.mllib包中提供的主要API,操作RDD,后续可能废弃。 spark.ml包中提供的构建机器学习工作流的高层次的API,主要操作DataFrame,可使用pipeline把很多操作(算法/特征提取/特征转换)以管道的形式...原创 2020-10-10 17:14:05 · 909 阅读 · 0 评论 -
flink(十四):sql版连接器和窗口实例
文章目录说明分享资料实例连接器随机数连接器输出连接器kafka连接器hive连接器mysql连接器Elasticsearch连接器hbase窗口滚动窗口总结说明本博客周五更新一次Flink Sql 支持众多连接器,语句各有不同,使用时查找起来麻烦,找到了也可能是错的,因此我整理收集了已知的连接与窗口实例,并持续更新,在此分享出来。分享大数据博客列表资料datagen文档jdbckafkahive基础文档 不同版本hive使用不同jarhive读写文档hbase文档原创 2021-07-16 12:21:34 · 519 阅读 · 6 评论 -
flink(十三):flink-CheckPoint和SavePoint作用和区别
文章目录分享说明CheckcPoint运行原理开启设置保存多个CheckPoint恢复任务SavePoint运行原理创建SavePoint恢复任务SavePoint和CheckPoint的区别详细区别总结分享大数据博客列表说明本博客周五更新一次Flink 功能模块CheckPoint(检查点)和SavePoint(保存点)是任务异常后恢复任务的重要功能,当任务异常关闭时,可以从检查点或保存点恢复任务。CheckcPointCheckPoint是 flink 实现容错机制最核心的功能,原创 2021-07-09 12:09:57 · 1524 阅读 · 4 评论 -
flink(十二):Table&Sql实现kafka输入输出
文章目录分享说明资料过程代码kafka操作总结分享大数据博客列表说明本博客每周五更新一次。实时计算处理中,kafka是重要的分布式消息队列,常作为 Flink 计算的输入和输出,本博客将使用 Flink 1.2实现 kafka 对数据的输入和输出操作。资料官方Flink 1.12 Table API&SQL kafka操作文档地址过程从kafka:input_kafka主题消费数据并生成Table,然后过滤状态为success的数据再写回到kafka:outpu_ka原创 2021-07-02 12:10:21 · 1861 阅读 · 0 评论 -
flink(十一):Table&Sql实现窗口水印计算
文章目录分享说明实现讲解代码总结分享大数据博客列表说明本博客每周五更新一次。本文属于实战,讲解 Flink1.12 版本java代码使用时间窗口加水印实现,具体需求为5秒内用户订单总数、订单最大金额、最小金额实现讲解代码结构分为5部分,准备环境 env数据输入 source模拟数据生成数据处理 transformation创建水印、窗口执行任务基于sql和table风格实现对应功能数据输出 sink启动任务 execute代码所有代码基于j原创 2021-06-25 15:17:23 · 589 阅读 · 0 评论 -
flink(十):Table&Sql注册表和视图
文章目录分享说明资料实现讲解代码总结分享大数据博客列表说明本文属于实战,讲解 Flink1.12 版本java代码注册表和视图的实现方法,开发环境搭建,参考上篇文章,这里不再赘述。资料官方Flink 1.12中文版Table API&SQL文档地址实现讲解代码结构分为5部分,准备环境 env数据输入 source数据处理 transformation数据输出 sink启动任务 execute代码所有代码基于java1.8import sta原创 2021-06-18 12:18:19 · 1619 阅读 · 2 评论 -
flink(九):Table&Sql环境搭建和程序结构
文章目录分享说明资料架构优势maven导包tabel API和SQL本地环境配置优化stream支持scala支持自定义格式或函数程序结构Blink(新)和flink(旧)计划器区别程序结构总结分享大数据博客列表说明Flink Table 相关知识是我一直感兴趣的部分,现决定跨过一些不必要的知识,直接学习 Flink Table ,本文主要介绍 flink table 架构和接口实现。Apache Flink 有两种关系型 API 来做流批统一处理:Table API 和 SQL。Table原创 2021-06-11 12:18:23 · 475 阅读 · 6 评论 -
flink(八):连续窗口和混合窗口
文章目录说明连续窗口独立窗口连续窗口wondow 多流合并滚动窗口关联滑动窗口关联会话窗口关联间隔关联总结说明本博客每周五更新一次。之前介绍了窗口和窗口函数,这次分享连续窗口和混合窗口的相关知识。连续窗口独立窗口针对同一个DataStream窗口进行不同的窗口处理,窗口间相对独立,输出结果在不同的DataStream中,这时Flink Runtime执行环境中,将分为两个Window Operator在不同的Task中执行,相互之间元数据不会进行共享。实例代码如下:val input原创 2021-06-04 13:58:06 · 1558 阅读 · 0 评论 -
大数据博文列表
大数据、hadoop、hbase、flink、spark、docker、vmware相关知识清单原创 2021-06-01 15:12:45 · 810 阅读 · 0 评论 -
flink(七):窗口函数
文章目录说明窗口函数ReduceFunctionAggregateFunctionFoldFunction(新版本废弃)ProcessWindowFunctionIncremental Aggregation和ProcessWindowFunction整合总结说明本博客每周五更新一次,上周五太忙,推迟到今天更新,以后尽量周五更新。本博文主要分享flink的窗口计算相关函数类型,窗口函数分类、特点和使用方法。窗口函数Flink中提供了四种类型的Window Function,分别为Reduce原创 2021-05-31 18:11:25 · 1297 阅读 · 7 评论 -
flink(六):框架和原理
2021-05-24文章目录说明角色分工flink on yarn执行流程DataFlow执行过程独立OperatorOperator合并OperatorChainOperator算子间传递模式One TO One模式Redistributing模式执行原理StreamGraphJobGraphExecutionGrap物理执行图总结说明本博客每周五更新一次,上周五有事,推迟到今天更新。本博文主要分享flink的系统架构和执行原理,介绍flink的角色分工和任务执行的具体步骤和过程。角色分工原创 2021-05-24 07:38:29 · 192 阅读 · 6 评论