自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yy的博客

大数据

  • 博客(961)
  • 资源 (22)
  • 问答 (2)
  • 收藏
  • 关注

原创 谷歌邮箱邮件是否已读 插件支持

2023-06-05 20:59:07 34

原创 mac idea 配置 cmd+ 向上/向下 移动光标到 首/尾行

弹出 快捷键冲突, 勾选 remove 冲突的其他项目。

2023-05-28 16:31:04 45

原创 spark 对struct结构的 读取 增加kv 删除kv 转换json等操作

spark sql struct 处理姿势

2023-05-24 01:40:44 35

原创 Spark Json系列UDF 姿势大全

主要基于jsonpath。

2023-05-21 02:34:24 209

原创 spark saveAsTable insertInto format(“Hive“) 分区表 写入hive 姿势大全

- 执行前OKsss 111-- 执行后OKa 1b 2- 普通表新增 df.write.mode("append").saveAsTable("tb1") //只要用 saveAsTable 这个api. 就需要保证 df和tb1表的 列名(scheme) 相同- 普通表覆盖 df.write.mode("overwrite").saveAsTable("tb1")

2023-05-18 02:24:10 338

原创 mac arm芯片 hive执行sql报错 org.xerial.snappy.SnappyError: [FAILED_TO_LOAD_NATIVE_LIBRARY] no native libra

org.xerial.snappy.SnappyError: [FAILED_TO_LOAD_NATIVE_LIBRARY] no native library is found for os.name=Mac and os.arch=aarch64

2023-05-18 00:53:33 91

原创 flink入门

/ flink1.13目前只支持java.// 左侧表index=0处和右侧表index=0处相等作为条件..where(0)// projectFirst表示左侧表 projectSecond表示右侧表// 左侧表取 index=0和index=1;右侧表取index=1;左侧表再取index=1;取的所有列按照左右顺序拼接./**/("math", "王老师"), ("chinese", "张老师")

2023-05-15 09:42:15 284

原创 delta.io 目前只支持 写时复制,是否会支持 读时合并

会的. 目前2023-5-13还没支持. 即 delta-io 2.3.0 不支持.目前支持第一步计划 支持delete,后续才会考虑支持update和merge.

2023-05-13 02:08:49 15

原创 power shell 入门

mv .\a.txt a1.txt // 文件/文件夹 重命名。mv .\a1.txt .\dir111\ // 文件移动位置。pwd: print work directory 的缩写.$psv + tab 自动补齐 // ps version。//前面ps打头的表示当前是powershell环境。rm -r .\dir111\ //删除文件夹。-r 递归复制 (会复制文件夹中文件)rm .\b.txt //删除文件。

2023-05-13 01:50:51 325

原创 scala入门大全

或者case "!// 方法1:// 方法2。

2023-05-13 01:47:36 355

原创 数据湖 iceberg hello world

2023-05-10 04:48:52 14

原创 数据湖 Delta.io 属于 写时复制 还是 读时合并

delta.io 只支持 写时复制。

2023-05-10 03:01:31 9

原创 hive物化视图

- 物化视图的生命周期 超过1s 自动重新生成物化视图结果 https://techcommunity.microsoft.com/t5/analytics-on-azure-blog/hive-materialized-views/ba-p/2502785。-- 对应的datagrip直接报错是: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask。-- 手动刷新物化视图。

2023-05-10 02:49:55 420

原创 spark sql hive sql join 之 using语法

sql join using语法.

2023-05-09 04:31:44 175

原创 数据湖 delta.io CDF功能 是否能够替换 传统数仓流程

更改数据馈送 (CDF) 功能允许 Delta 表跟踪 Delta 表版本之间的行级更改在 Delta 表上启用时,运行时会记录写入表中的所有数据的“更改事件”。这包括行数据以及指示指定行是被插入、删除还是更新的元数据。

2023-05-07 15:06:58 332

原创 spark sql to_json保留值为null的kv对

JSON.toJSONString(jsonobj或者jsonarray, SerializerFeature.WriteMapNullValue)如果你是spark2.x 请使用fastjson或者其他json包手动实现。单子上可以看到 spark3.0.0才开始支持。

2023-05-05 20:18:25 27

原创 spark 读取json解析Schema问题汇总

问题1: json中 kv的v为null,则上游可能不会在json里写这个kv问题2: 如果某个v都是null 那么spark.read.json解析出来就认为是StringType 如果你下游是Array之类的,就会导致后续报错问题3: spark2普通模式 spark.read.schema(...).json 读取json并手动指定schema 如果某行json中某列数据类型和schema不对应,无法解析,那么该行所有数据列都会被解析为null。

2023-05-04 21:10:59 32

原创 hive 清空分区表 多姿势对比

测试 清空hive分区表(分区>1000) 最优方案。

2023-05-04 19:35:18 417

原创 数据湖 delta-io z-ordering

Z-Ordering 是一种将相关信息并置在同一组文件中的技术。Delta Lake 在数据跳过算法中自动使用这种共同(组合)定位。此行为显着减少了 Apache Spark 上的 Delta Lake 需要读取的数据量。要对数据进行 Z 排序,您可以在 ZORDER BY 子句中指定要排序的列.

2023-05-02 14:16:47 15

原创 apache hive release notes

https://github.com/apache/hive/blob/master/RELEASE_NOTES.txt

2023-05-02 14:03:37 35

原创 入门大纲 我为什么使用delta-io 数据湖 替代hive

databricks宣布把delta-io共享给apache基金会 并且delta-io从以前打杂的0.x版本升级为1.x 随后就是bug的各种修复和新功能的增加.release note可以看: Releases · delta-io/delta · GitHubhive/spark 如果多个任务同时读写hive表会导致报错或者丢数据. Concurrency Control — Delta Lake Documentation​​​​​​Table streaming reads and writes

2023-05-02 14:02:34 399

原创 数据湖 delta-io 版本回滚 restore命令

注意: 版本号是从0开始 除非你后来清理过老数据(vacuum).

2023-05-02 13:33:18 15

原创 数据湖 Delta-io time travel 时间旅行功能

每次对delta-io表的修改都会记录 你可以通过记录复现每次修改后的结果. 即你可以查看每个历史版本当时的结果.这就是。

2023-05-02 13:25:06 15

原创 数据湖 delta-io 浅克隆 Shallow clone

类似你git拉分支 即多个分支共用主分支的文件. 类似linux硬链接文件后 各自在各自分支做独立的修改.

2023-05-02 13:14:04 36 1

原创 flinkCDC相当于Delta.io中的什么 delta.io之CDF

更改数据馈送 (CDF) 功能允许 Delta 表跟踪 Delta 表版本之间的行级更改在 Delta 表上启用时,运行时会记录写入表中的所有数据的“更改事件”。这包括行数据以及指示指定行是被插入、删除还是更新的元数据。

2023-05-01 20:35:50 527

原创 spark读取json spark.read.json 多种模式的区别

调用 show 后,查询将失败并通知您存在与提供的模式不匹配的记录。然而,计数仍然会返回数据中的总行数,因为计算行数时 Spark 根本不需要解析实际记录,所以它不会发现模式不一致。如果我们调用 show,正如您在我们的示例中看到的那样,只会收集两条记录,所以这里的计数可能会导致很大的混淆.如果您仅选择 user_id列,Spark 不会注意到分数列中的问题,并且会表现得好像根本没有问题一样。调用计数显示正确的记录数,但是在查看数据时,我们会看到两条记录包含空值,DROPMALFORMED 减少畸形。

2023-05-01 15:59:55 1581

原创 清空hive表 姿势大全

- 清空分区表为什么着重强调分区表,因为分区表清空可能会因为分区过多导致清理速度特别慢.

2023-04-29 14:27:17 630

原创 k8s 脚本探针 探测https是否可用

exit 1 返回的推出码非0 k8s就认为失败。

2023-04-27 21:11:19 21

原创 mac录屏没声音 没电脑声音 没麦克风声音

授权后 关闭并重启应用. 同时支持mac自身声音和麦克风声音。

2023-04-26 19:47:22 14

原创 delta.io 2.3.0 overwrite模式 overwriteSchema df覆盖table的表schema

图中注意事项:Note that the schema can't be overwritten when using'replaceWhere'.

2023-04-25 15:49:08 25

原创 delta.io 2.3.0 hive(parquet)表 iceberg表 delta.io表 互转

Table utility commands — Delta Lake Documentation

2023-04-25 14:18:35 20

原创 delta.io 2.3.0 数据湖 vacuum 清理历史版本数据(不清理操作日志)

默认(不传入小时参数)清理 超过默认保留期(7天)的旧版本不需要的文件这个命令delta.io不会自动调度 需要你手动执行;vacuum只删除数据文件,不删除日志文件;

2023-04-25 14:13:40 16

原创 delta.io 数据湖 写入 分区表

【代码】delta.io 数据湖 写入 分区表。

2023-04-25 13:50:03 460

原创 delta.io 数据湖 append模式之 mergeSchema(默认false)

Table batch reads and writes — Delta Lake Documentation

2023-04-25 13:37:38 14

原创 delta.io 数据湖 checkpoint是什么

delta.io可能会从 00000000000000000000.json 00000000000000000001.json ... 00000000000000000022.json 一步步执行你之前的每次变更,就会得到最终数据. 但是如果频繁变更,那么肯定很浪费时间,而且如果 00000000000000000004.json 删除了id=2的一行数据,00000000000000000007.json又把id=2的这行数据重新加进来了,那么感觉就是在无用功.这肯定不是简单的文件叠加.

2023-04-25 13:22:18 340

原创 delta.io 参数 spark.databricks.delta.replaceWhere.constraintCheck.enabled

不报错 原表和df和条件相同的分区被覆盖. df中独有的数据会新增.覆盖写入c2=2的分区之前,他会校验你的df是否只有c2=2的数据。

2023-04-24 21:27:30 280

原创 idea copilot 提问模式

回车后copilot自动给你出答复。你写q question。

2023-04-24 02:19:17 166

原创 sparksql select后插入自己 报错 Cannot overwrite a path that is also being read from

spark.version < 3.0.1 执行下面语句报错: Cannot overwrite a path that is also being read from ...

2023-04-23 19:58:54 1084 1

原创 spark 读取hive分桶表 无shuffle join

- 分桶join bucketjoin hive分桶 spark分桶 分桶优化 分桶join优化。

2023-04-20 23:49:00 139

原创 scala 拷贝本地文件到hdfs

【代码】scala 拷贝本地文件到hdfs。

2023-04-18 20:59:59 30

hive-udf-处理JSON数组

hive_udf_处理JSON数组

2023-05-19

arm架构cpu oracle jdk8

arm架构cpu oracle jdk8

2022-12-04

scala-intellij-bin-2021.3.8.zip

idea scala插件

2021-11-07

matlab绘图方法.docx

matlab绘图方法.docx

2021-11-01

trino-363-server+client+jdbc.zip

trino363版本 server client 和 jdbc包

2021-10-29

jdk-11.0.12_windows-x64_bin-oracle.zip

jdk11 oracle官网

2021-10-29

jdk8-oracle.zip

jdk8 oracle官方

2021-10-29

zulu17.30.15-ca-jdk17.0.1-win_x64.zip

jdk17 zulu版本

2021-10-29

zulu11.52.13-ca-jdk11.0.13-win_x64.zip zulu版本

jdk11 zulu版本

2021-10-29

dbeaver-ee-21.2.0-win32.win32.x86_64.zip

dbeaver-ee-21.2.0-win32.win32.x86_64.zip

2021-10-29

有道云笔记Beta版-1.2.6.exe

有道云笔记Beta版-1.2.6.exe

2021-10-29

Xshell Plus.zip

xshell 带快速命令按钮 自用. 我是公司不让登录网盘,只能靠csdn...

2021-10-29

cdh继承tez引擎 cdh添加tez引擎 hive引擎增加

包括pom修改的每个截图和配置,该文档从有道云笔记到处略加修改,其中pom内容格式需要你手动调整一下. 富含 大量截图帮助定位和配置. 含hive on tez 常见报错的解决方法. tez比spark更省心. spark容易出现内存问题.

2021-07-07

天宝MN18(4800h)新版bios解决wsl蓝屏问题(2021年4月的bios)

天宝MN18(4800h)新版bios解决wsl蓝屏问题(2021年4月的bios)

2021-04-19

trino354不同内存参数比例性能对比.xlsx

描述trino的内存参数比例对查询速度的影响

2021-04-12

CloudCompareStereo_v2.12.alpha_setup_x64.exe

CloudCompare win安装包 2.12

2021-03-26

dbeaver.zip

企业版 7.3.0版本; 直接放到c盘根目录 解压到当前目录即可使用 解压后路径eg: C:\dbeaver\drivers\...

2021-02-18

redash-Version8.0.0-包含npm编译好的页面文件.zip

redash-Version8.0.0-包含npm编译好的页面文件

2021-01-29

Redash中文版V9安装部署1.28.pdf

Redash开源中文版V9.0.0安装部署培训教程

2021-01-28

dist.zip是redashV8.0.0dockr部署过程中npm产生的文件

redash v8.0.0的npm产生的文件夹 https://github.com/getredash/redash 使用方法:下载dist.zip 然后放到redish/client/下 然后运行 unzip dist.zip 然后cd .. 然后就ok了) 直接下载解压就行 否则需要npm去build

2021-01-28

excel 时间戳 日期时间 互转

excel 时间戳 日期时间 互转

2021-01-17

groupTable.js

在实现了单列合并的基础上实现了多列合并,并且右侧对应左侧的分组关系保留,并且不会改变分组内排序(所以需要后台把分组内数据提前排序)

2020-06-19

laydate.js

实现日期范文选择和纵向选择 即 选择每个月的周五等等 全局变量mydateold 就是当前选择的时间列表 使用官网的作为独立组件使用的方法

2019-09-29

许多点之间连线最短 python实现

https://blog.csdn.net/qq_35515661/article/details/86499957 许多点之间连线最短 python实现 网友给的公选课题目

2019-05-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除