- 博客(961)
- 资源 (22)
- 问答 (2)
- 收藏
- 关注
原创 spark saveAsTable insertInto format(“Hive“) 分区表 写入hive 姿势大全
- 执行前OKsss 111-- 执行后OKa 1b 2- 普通表新增 df.write.mode("append").saveAsTable("tb1") //只要用 saveAsTable 这个api. 就需要保证 df和tb1表的 列名(scheme) 相同- 普通表覆盖 df.write.mode("overwrite").saveAsTable("tb1")
2023-05-18 02:24:10
338
原创 mac arm芯片 hive执行sql报错 org.xerial.snappy.SnappyError: [FAILED_TO_LOAD_NATIVE_LIBRARY] no native libra
org.xerial.snappy.SnappyError: [FAILED_TO_LOAD_NATIVE_LIBRARY] no native library is found for os.name=Mac and os.arch=aarch64
2023-05-18 00:53:33
91
原创 flink入门
/ flink1.13目前只支持java.// 左侧表index=0处和右侧表index=0处相等作为条件..where(0)// projectFirst表示左侧表 projectSecond表示右侧表// 左侧表取 index=0和index=1;右侧表取index=1;左侧表再取index=1;取的所有列按照左右顺序拼接./**/("math", "王老师"), ("chinese", "张老师")
2023-05-15 09:42:15
284
原创 delta.io 目前只支持 写时复制,是否会支持 读时合并
会的. 目前2023-5-13还没支持. 即 delta-io 2.3.0 不支持.目前支持第一步计划 支持delete,后续才会考虑支持update和merge.
2023-05-13 02:08:49
15
原创 power shell 入门
mv .\a.txt a1.txt // 文件/文件夹 重命名。mv .\a1.txt .\dir111\ // 文件移动位置。pwd: print work directory 的缩写.$psv + tab 自动补齐 // ps version。//前面ps打头的表示当前是powershell环境。rm -r .\dir111\ //删除文件夹。-r 递归复制 (会复制文件夹中文件)rm .\b.txt //删除文件。
2023-05-13 01:50:51
325
原创 hive物化视图
- 物化视图的生命周期 超过1s 自动重新生成物化视图结果 https://techcommunity.microsoft.com/t5/analytics-on-azure-blog/hive-materialized-views/ba-p/2502785。-- 对应的datagrip直接报错是: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask。-- 手动刷新物化视图。
2023-05-10 02:49:55
420
原创 数据湖 delta.io CDF功能 是否能够替换 传统数仓流程
更改数据馈送 (CDF) 功能允许 Delta 表跟踪 Delta 表版本之间的行级更改在 Delta 表上启用时,运行时会记录写入表中的所有数据的“更改事件”。这包括行数据以及指示指定行是被插入、删除还是更新的元数据。
2023-05-07 15:06:58
332
原创 spark sql to_json保留值为null的kv对
JSON.toJSONString(jsonobj或者jsonarray, SerializerFeature.WriteMapNullValue)如果你是spark2.x 请使用fastjson或者其他json包手动实现。单子上可以看到 spark3.0.0才开始支持。
2023-05-05 20:18:25
27
原创 spark 读取json解析Schema问题汇总
问题1: json中 kv的v为null,则上游可能不会在json里写这个kv问题2: 如果某个v都是null 那么spark.read.json解析出来就认为是StringType 如果你下游是Array之类的,就会导致后续报错问题3: spark2普通模式 spark.read.schema(...).json 读取json并手动指定schema 如果某行json中某列数据类型和schema不对应,无法解析,那么该行所有数据列都会被解析为null。
2023-05-04 21:10:59
32
原创 数据湖 delta-io z-ordering
Z-Ordering 是一种将相关信息并置在同一组文件中的技术。Delta Lake 在数据跳过算法中自动使用这种共同(组合)定位。此行为显着减少了 Apache Spark 上的 Delta Lake 需要读取的数据量。要对数据进行 Z 排序,您可以在 ZORDER BY 子句中指定要排序的列.
2023-05-02 14:16:47
15
原创 apache hive release notes
https://github.com/apache/hive/blob/master/RELEASE_NOTES.txt
2023-05-02 14:03:37
35
原创 入门大纲 我为什么使用delta-io 数据湖 替代hive
databricks宣布把delta-io共享给apache基金会 并且delta-io从以前打杂的0.x版本升级为1.x 随后就是bug的各种修复和新功能的增加.release note可以看: Releases · delta-io/delta · GitHubhive/spark 如果多个任务同时读写hive表会导致报错或者丢数据. Concurrency Control — Delta Lake DocumentationTable streaming reads and writes
2023-05-02 14:02:34
399
原创 数据湖 Delta-io time travel 时间旅行功能
每次对delta-io表的修改都会记录 你可以通过记录复现每次修改后的结果. 即你可以查看每个历史版本当时的结果.这就是。
2023-05-02 13:25:06
15
原创 数据湖 delta-io 浅克隆 Shallow clone
类似你git拉分支 即多个分支共用主分支的文件. 类似linux硬链接文件后 各自在各自分支做独立的修改.
2023-05-02 13:14:04
36
1
原创 flinkCDC相当于Delta.io中的什么 delta.io之CDF
更改数据馈送 (CDF) 功能允许 Delta 表跟踪 Delta 表版本之间的行级更改在 Delta 表上启用时,运行时会记录写入表中的所有数据的“更改事件”。这包括行数据以及指示指定行是被插入、删除还是更新的元数据。
2023-05-01 20:35:50
527
原创 spark读取json spark.read.json 多种模式的区别
调用 show 后,查询将失败并通知您存在与提供的模式不匹配的记录。然而,计数仍然会返回数据中的总行数,因为计算行数时 Spark 根本不需要解析实际记录,所以它不会发现模式不一致。如果我们调用 show,正如您在我们的示例中看到的那样,只会收集两条记录,所以这里的计数可能会导致很大的混淆.如果您仅选择 user_id列,Spark 不会注意到分数列中的问题,并且会表现得好像根本没有问题一样。调用计数显示正确的记录数,但是在查看数据时,我们会看到两条记录包含空值,DROPMALFORMED 减少畸形。
2023-05-01 15:59:55
1581
原创 delta.io 2.3.0 overwrite模式 overwriteSchema df覆盖table的表schema
图中注意事项:Note that the schema can't be overwritten when using'replaceWhere'.
2023-04-25 15:49:08
25
原创 delta.io 2.3.0 hive(parquet)表 iceberg表 delta.io表 互转
Table utility commands — Delta Lake Documentation
2023-04-25 14:18:35
20
原创 delta.io 2.3.0 数据湖 vacuum 清理历史版本数据(不清理操作日志)
默认(不传入小时参数)清理 超过默认保留期(7天)的旧版本不需要的文件这个命令delta.io不会自动调度 需要你手动执行;vacuum只删除数据文件,不删除日志文件;
2023-04-25 14:13:40
16
原创 delta.io 数据湖 append模式之 mergeSchema(默认false)
Table batch reads and writes — Delta Lake Documentation
2023-04-25 13:37:38
14
原创 delta.io 数据湖 checkpoint是什么
delta.io可能会从 00000000000000000000.json 00000000000000000001.json ... 00000000000000000022.json 一步步执行你之前的每次变更,就会得到最终数据. 但是如果频繁变更,那么肯定很浪费时间,而且如果 00000000000000000004.json 删除了id=2的一行数据,00000000000000000007.json又把id=2的这行数据重新加进来了,那么感觉就是在无用功.这肯定不是简单的文件叠加.
2023-04-25 13:22:18
340
原创 delta.io 参数 spark.databricks.delta.replaceWhere.constraintCheck.enabled
不报错 原表和df和条件相同的分区被覆盖. df中独有的数据会新增.覆盖写入c2=2的分区之前,他会校验你的df是否只有c2=2的数据。
2023-04-24 21:27:30
280
原创 sparksql select后插入自己 报错 Cannot overwrite a path that is also being read from
spark.version < 3.0.1 执行下面语句报错: Cannot overwrite a path that is also being read from ...
2023-04-23 19:58:54
1084
1
原创 spark 读取hive分桶表 无shuffle join
- 分桶join bucketjoin hive分桶 spark分桶 分桶优化 分桶join优化。
2023-04-20 23:49:00
139
cdh继承tez引擎 cdh添加tez引擎 hive引擎增加
2021-07-07
dist.zip是redashV8.0.0dockr部署过程中npm产生的文件
2021-01-28
许多点之间连线最短 python实现
2019-05-02
presto开启https配置好后无法成功启动
2021-01-15
idea的git插件里面的auto fetch有啥用,有什么存在的必要?能方便我们什么?
2020-12-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人