- 博客(33)
- 资源 (15)
- 收藏
- 关注
原创 Ambari集成Apache Kyuubi实践
集成Apache Kyuubi到HDP中,主要涉及Ambari的二次开发。标签内添加kyuubi相关配置项,包括kyuubi-defaults、kyuubi-env、kyuubi-log4j-properties、ranger-spark-audit、ranger-spark-security。该目录可存放,存放的是组件属性的配置信息,和配置目录下的配置对应,这个关系是如果我们在Ambari页面修改了属性信息,则修改信息会自动填充该目录下的文件的属性,所以,这个目录下的属性是最新的,并且是服务要调用。
2024-06-07 14:16:27 1292
原创 ambari 自定义监控服务
ambari 是大数据平台的管理,部署,运维,监控,配置管控平台,可以实现大数据的自动安装,部署,调试,配置,监控工作,针对ambari 的监控组件聊一下。ambari 中有单独的组件Metrics,主要是用来进行收集,存储,规则处理,监控数据服务。psutil:一个跨平台的系统信息采集 Python 模块。metric_collector:周期性(默认为5s)采集系统信息,并存储到 ApplicationMetricMap 当中。
2024-06-07 13:47:16 685
原创 kyuubi/spark3的catalog 多个数据源配置
在使用kyuubi 的时候,有多个集群,老集群上是hive2,新集群hive3 ,想通过一个网关访问多个集群,或者通过jdbc访问mysql,oracle的数据,这样不用来回数据导入导出。spark 支持跨库访问数据,在spark 中提供两种方式:1.建临时视图,通过临时视图访问外部库。2 建catalog ,通过多个catalog访问。
2024-05-23 12:10:16 603
原创 apache atlas 如何自定义hook
就是你连接的是什么数据库,什么程序,字段,表,视图等这些信息需要进行注册,毕竟不同的库,这些信息不一样,比如hive 和hbase 的属性肯定不一样。我们了解钩子函数先了解,数据源,所谓钩子函数,其实是需要源系统配合,这个其实就是源系统的一个监听机制,就是在客户端(写sql)——执行端,在中间有个监听程序,可以获取sql解析过程。目前市场上开源的元数据管理工具有Atlas, Datahub, Openmetadata等,你要说二次开发,谁最好,如果是java 人月,还是 Atlas ,灵活,简单。
2024-05-08 16:52:34 573
原创 idea开发delta.io数据湖
delta.io是三大数据湖之一,Iceberg 和hudi. 国内人用的比较多,delta国外的大厂用的比较多,主要来源与databrack . 像苹果,adobe,阿里等公司用的是delta.io,相对来说比较成熟一些。通过idea的spark 操作delta.delta 存储用的是minio,没有用hadoop。idea maven 的pom.xml。
2023-12-25 11:33:57 799
原创 iceberg1.4.2 +minio通过spark创建表,插入数据
iceberg 是一种开放的表格式管理,解决大数据数据中结构化,非结构化和半结构化不统一的问题。主要是通过对表的管理实现增删改查,同时支持历史回滚(版本旅行)等操作。下层支持hadoop,s3,对象存储,上层支持hive,spark,flink 等应用。实现在中间把两部分隔离开来,实现一种对接和数据管理的标准。有这个标准,不管是谁建的表,都可以操作和访问。比如我用spark创建表,flink去读取的时候,可以读取到数据。在idea进行pom.xml配置。通过上面的例子,直接复制执行。
2023-12-25 11:21:04 1344
原创 Iceberg java API +minio 开发web catalog
我们现在数据湖产品,开发基本上都是大数据人员操作,能不能java 开发,比如用java web 开发在线创建表,创建分区,在线修改表字段。做数据湖Iceberg的元数据管理呢,因为我们大部分的表修改希望通过应用修改,并查看应用。对java人员,最麻烦就是安装hadoop,hive,现在这个例子,不需要hadoop和hive,对Iceberg数据湖进行表管理开发。接下来将在window上,通过一个demo例子来实现java 版的iceberg开发和应用。下面。
2023-12-19 14:21:09 804
原创 编译apache atals 2.3报错
org.restlet.jee:org.restlet:jar:2.4.3 这个依赖。同时,错误信息中提到了 sun.security.validatorException 和 CertPathValidatorException,这可能是由于 SSL 证书验证失败导致的。具体来说,是关于 org.restlet.jee:org.restlet:jar:2.4.3 这个依赖。atlas依赖 org.restlet.jee,官方仓库中没有,需要提前安装在本地,保证编译过程顺利进行。
2023-12-12 16:09:18 699
原创 什么是Headless BI
Headless BI是国外比较流行的一个概念,本质是将数据的语义层和应用层进行解耦,希望通过统一语义层的模式实现指标和模型的一处定义、多处使用。其实望能够为分析应用和业务场景提供统一的语言,降低数据服务的开发成本。原来的数据中台和和数据湖是直接提供数据:现在的:中间加了一个API层。
2023-10-25 15:53:54 1513
原创 聊一下Data Fabric(数据编织)
当下,数据是企业数字化转型重要驱动因素,而随着业务的发展,企业的数据环境日趋复杂。在更高程度数字化要求下,企业必须使用一种新型的数据结构来应对企业数据资产日益加剧的多样化、分布式、规模、复杂性等问题。因此,数据编织(Data Fabric)应运而生。Gartner认为数据编织是一种跨平台的数据整合方式,它不仅可以集合所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据。作为一种新兴的数据管理和处理方法,数据编织能够基于网络架构而不是点对点的连接来处理数据。
2023-10-25 15:18:56 481 1
原创 Flink对接Delta 数据湖
目前Delta支持flink 的的写入和查询Flink/Delta Connector 是一个 JVM 库,用于从 Apache Flink 应用程序读取和写入数据到 Delta 表 利用。连接器提供恰好一次的交付保证。DeltaSink。
2023-10-25 14:26:00 239 1
原创 spark 3.5版本发布
此版本引入了更多 Spark Connect 正式发布的方案,例如 Scala 和 Go 客户端、分布式训练和推理支持,以及增强了结构化流式处理的兼容性;引入了新的 PySpark 和 SQL 功能,例如 SQL IDENTIFIER 子句、对 SQL 函数调用的命名参数支持、对 HyperLogLog 近似聚合的 SQL 函数支持以及 Python 用户定义的表函数;在开源社区的重大贡献下,此版本处理了 1,300 多个 Jira 工单。以下功能将在下一个 Spark 主要版本中删除。
2023-10-25 14:10:56 1264 1
原创 zeppelin 0.10.1 安装spark3和flink 1.14
zeppelin 作为数据湖的交互式分析平台,可以在上面写sql,python,java等多种语音和数据库的交互式分析工具,可以通过一个个片段进行分析,支持片段上下文,支持参数和结果传递,不需要进行IDE进行编程,直接在页面上操作。
2023-10-02 23:17:35 373 1
原创 通俗易懂介绍数据湖和数仓
通过上图,可以清洗的看到数据湖的作用。那大家会问,数据湖根数仓到底有啥区别,那我们首先要看一下,数据仓库长什么样子。下图是数据仓库的的流程:我们以我们的工厂举例:我们的原材料:各种食材来源。我们采购渠道:统一的采购和过滤,按需采购我们的工厂:先产品设计(模型设计),在根据设计进行加工(ETL过程),行程标准化(数据治理(要质量验证))我们的集市:产品标准的专门店(专业的营业员,专业的介绍,统一的口径)。
2023-08-24 17:05:30 310 1
原创 spark和flink对比
最近网上和各大公司在对比spark 和flink , 也有一部分人,演讲时不分析代码原理,不根据事实,直接吹嘘flink比spark好,flink 能干掉spark 的话,今天就跟大家从技术,应用和未来发展角度对两个产品进行对比。先说产品特性:1.spark中批处理使用 RDD, 流处理使用 DStream,flink中批处理使用 Dataset, 流处理使用 DataStreams。目前flink 在做Dataset 和DataStreams 合并,实现统一API 服务,spark底层是基于RDD
2022-04-25 12:01:10 2443 2
原创 疫情环境下,远程办公成了趋势
疫情条件下,远程办公成了趋势,有几点可以大家一起分享:1.远程办公可以降低成本,企业不用租高档写字楼,员工不用租房子,减少生活成本,一个在北京2万的元员工,在其他城市买房,除了给房东打工,还要给银行打工,收益-成本,最后根本不剩钱。这就是企业高成本,员工高成本,最后都没有利润。同时也不用为了户口,买房摇号,买车摇号发愁。2.如果员工的工作产生的税务,可以交到当地政府,可以增加当地政府收入,比如...
2020-02-17 12:47:08 1466 4
原创 IP时代,5G,区块链会给你带来哪些改变
ip时代,你将要干嘛,你要何去何从?最近大家都在说北京写字楼空置率在上升,是不是房价真的要下跌了?像马云说的房价如葱?其实不是,是ip时代到来(ip是具有独立知识产权的东西,通俗意义上说,专业人做专业的事,具有专业价值) 。在短视频 ,5G的到来,ip的就不再分地域限制,大家都可以各回各家,各找各妈。你在老家可以通过短视频做引流,买东西。何必跑到北上广花很高的成本,坐2个小时地铁去工作...
2019-11-26 08:35:31 247 1
原创 Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error
在spark 2.4中报ArrayIndexOutOfBoundsException 原因是Spark 2.4.0中引用的paranamer版本是2.7导致问题。在spark-core / spark-sql之前添加以下依赖项为我解决了这个问题。<dependency> <groupId>com.thoughtworks.paranamer</gro...
2018-11-23 13:27:46 1029
原创 大数据Spark实战高手之路职业学习路线图
从零起步,分阶段无任何障碍逐步掌握大数据统一计算平台Spark,从Spark框架编写和开发语言Scala开始,到Spark企业级开发,再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试,一次性彻底掌握Spark,成为云计算大数据时代的幸运儿和弄潮儿,笑傲大数据职场和人生!学习条件1,掌握Scala;2,精通Spark企业及开发;3,精通Spark框架源码实现;4
2014-12-01 15:32:07 935
原创 用java 项目链接hbaes 容易出现的错误!
2014-10-21 16:08:37,580 WARN [main] util.NativeCodeLoader (NativeCodeLoader.java:(62)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable2014-10
2014-10-21 16:12:38 791
原创 html5的强大之处
我们所知道的html5的特性:Canvas,From, 本地存储,本地数据库 离线应用 webworket, webscoket其实看上去,跟flash比没什么优势,但是更重要的是有太多技术的支持和集成。svg:svg是一种矢量图,在html5没出来之前,它是做为web浏览器的一种图形界面,不过要基于插件 adoble svg view svg 也是一种xml文档格式的元素
2011-12-30 10:14:49 643
原创 Flex和sliverlight的未来之路
flex 在成长的过程中历经沧桑,但是始终离不开flash在后台做后盾,他的后台代码是Actionscirp 但是sliverlight的后台代码是.net 的技术 所以说slilverlight学的时候,只要你会.net就可以非常快的上手,flex 你以前学过flash。你也可以很快上手
2010-01-27 12:13:00 255
apache nifi使用指南1.docx
2020-06-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人