一个平凡的IT农民工
码龄20年
关注
提问 私信
  • 博客:32,849
    社区:4,965
    37,814
    总访问量
  • 48
    原创
  • 147,295
    排名
  • 113
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:一个平凡的40+农民工

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2005-02-19
博客简介:

kanganrui的专栏

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    383
    当月
    0
个人成就
  • 获得127次点赞
  • 内容获得19次评论
  • 获得131次收藏
创作历程
  • 11篇
    2024年
  • 7篇
    2023年
  • 5篇
    2022年
  • 2篇
    2021年
  • 5篇
    2020年
  • 17篇
    2019年
  • 1篇
    2012年
成就勋章
TA的专栏
  • Delta lake with java
    10篇
  • 私有云搭建与部署
    7篇
  • PMP考试
    5篇
  • 40程序员转运维
    6篇
  • 42岁农民工考软考
    1篇
  • 地理信息
    1篇
  • 运维
  • 40岁程序员学Flink
    4篇
  • hadoop window cygwin
    1篇
  • HADOOP
  • spring boot
    1篇
  • 40岁程序员学NLP
    1篇
  • 40程序员,补学java多线程
    9篇
兴趣领域 设置
  • 大数据
    flink
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

353人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Delta lake with Java--读《Delta Lake Up and Running》总结

第三章 Delta lake最基本操作,包括建库,建表,描述表结构,插入数据,查询数据,可以通过3种方式实现,分别是spark sql+sql语句,spark dataframe api,deltatable api,个人觉得用sql语句比较简单。第七章 表结构变化处理,主要是两类处理,一类是固定结构,遇到不一致的就报错,另外一个类就是结构可以根据数据变化,要实现主要在数据写入的时候,设置option("mergeSchema",true)。
原创
发布博客 2024.05.05 ·
597 阅读 ·
9 点赞 ·
3 评论 ·
4 收藏

Delta lake with Java--使用stream同步数据

今天继续学习Delta lake Up and Running 的第8章,处理流数据,要实现的结果就是在一个delta表(名为:YellowTaxiStreamSource)插入一条数据,然后通过流的方式能同步到另外一个delta表 (名为:YellowTaxiStreamTarget)。接着在YellowTaxiStreamSource更新数据YellowTaxiStreamTarget也能更新。至于删除也尝试过了,发现删除是没有办法同步的。
原创
发布博客 2024.05.05 ·
432 阅读 ·
4 点赞 ·
1 评论 ·
6 收藏

Delta lake with Java--liquid clustering

第一个遇到的情况,不能像之前那样逐列定义表,即使用sql语句也不行,一定要从另外一个表select数据才能建表成功,具体见代码中sqlText定义。比较一下查询效率,好像没有什么区别,也不知道是不是我的代码有问题,还是本身还是实验阶段。先记录下来,后面继续跟进学习。第二个遇到的情况,判断表是否存在不生效,所以建表的sql运行完第一次后要注释掉否则就会报错。
原创
发布博客 2024.05.04 ·
298 阅读 ·
7 点赞 ·
0 评论 ·
1 收藏

Delta lake with Java--分区表

今天尝试一下将昨天的数据操作建立的表换成分区表,参考Delta Lake Up and Running做法用分区表的方式来更新数据。还要比较一下分区表的查询与非分区表的查询,结果显示分区表的查询速度要比非分区表要快。从最后一张图红框可以看到比较结果,分区表查询效率要高一点。
原创
发布博客 2024.05.04 ·
574 阅读 ·
16 点赞 ·
0 评论 ·
1 收藏

Delta lake with Java--数据增删改查

里面涉及spark的TimestampType类型,如何将字符串输入到TimestampType列,找了几个小时才找到答案,具体参考了如下连接,原来直接将string转成java.sql.Timestamp即可,于是在网上找了一个方法,实现了转换,转换代码非原创,也是借鉴其他大牛的。之前写的关于spark sql 操作delta lake表的,总觉得有点混乱,今天用Java以真实的数据来进行一次数据的CRUD操作,所涉及的数据来源于Delta lake up and running配套的 Git。
原创
发布博客 2024.05.03 ·
868 阅读 ·
7 点赞 ·
3 评论 ·
5 收藏

Delta lake with Java--利用spark sql操作数据2

里面涉及的数据集YellowTaxi,在如下地址下载,这个也是Delta Lake Up and Runing的配套仓库。具体运行结果如下,没有什么需要注意的,纯粹就是输入一下代码,验证一下结果。
原创
发布博客 2024.05.01 ·
919 阅读 ·
8 点赞 ·
1 评论 ·
4 收藏

Delta lake with Java--利用spark sql操作数据1

代码主要实现建立一个表名为YellowTaxi,插入5条数据,然后查询YellowTaxi这5条数据,再建立一个表YellowTaxiPartitioned,YellowTaxiPartitioned是分区表。具体文字内容如下,从结果可以看出分区表的查询效率要比不分区表要好,后面建表还是要用分区表。不分区查询开始时间(含毫秒): 2024-05-01 11:29:39.655。不分区查询结束时间(含毫秒): 2024-05-01 11:29:40.130。
原创
发布博客 2024.05.01 ·
907 阅读 ·
22 点赞 ·
6 评论 ·
13 收藏

Delta lake with Java--将数据保存到Minio

3、修改pom.xml增加hadoop-aws依赖,这里要注意版本号,不知道如何确定版本号,去spark下载目录里面的jar目录,找hadoop-client-api-***.jar,其中***就是版本号了。config("spark.hadoop.fs.s3a.fast.upload.buffer", "bytebuffer")这一行一定要添加,否则会报错。1、安装Minio,去官网下载最新版本的Minio,进入下载目录,运行如下命令,曾经尝试过用docker来安装,不过数据无法保存成功。
原创
发布博客 2024.04.30 ·
509 阅读 ·
4 点赞 ·
1 评论 ·
7 收藏

Delta lake with Java--在spark集群上运行程序

今天要实现的内容是如何将昨天的HelloDetlaLake 在spark集群上运行,。里面的解决方法就是把Delta lake相关的jar包复制到spark安装目录下面的jar目录里面,于是决定尝试一下。复制完后,记得重新运行第2和第3步,重启spark。该问题又花了半天的时间到处找,最终找到一个类似的。
原创
发布博客 2024.04.29 ·
468 阅读 ·
10 点赞 ·
0 评论 ·
8 收藏

Delta lake with Java--入门

Detla lake with Java 入门
原创
发布博客 2024.04.28 ·
332 阅读 ·
9 点赞 ·
2 评论 ·
2 收藏

如何令containerd连接私有harbor

尝试用kubeadmin安装k8s 1.27.6,并使用containerd来运行容器,结果containerd连harbor这个问题搞了我一天,终于搞通了。发现情况跟我一样,我的harbor也是只有IP,虽然使用的是https,但端口号改了3443,参考做法,居然成功了,总结步骤如下。搞了一天,终于搞通了,无论做科研,搞研究,只要不放弃,肯努力一定会有收获的。心灰意冷,准备换回docker,后来找到这篇文章。接着参考网上很多方法,搞了一天,结果都失败。harbor使用自签证书安装。
原创
发布博客 2024.01.22 ·
1552 阅读 ·
22 点赞 ·
0 评论 ·
26 收藏

如何通过开源项目搭建私有云平台--第四步下:安装rancher 监控

前文再续,书接上一步,继续介绍rancher搭建K8s集群
原创
发布博客 2023.04.28 ·
1102 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何通过开源项目搭建私有云平台--第四步中:安装rancher longhorn

前文再续,书接上文,开始安装k8s所需要的外部存储
原创
发布博客 2023.04.21 ·
802 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何通过开源项目搭建私有云平台--第四步上:安装rancher,搭建K8s集群

前文再续,书接上一步,开始最核心的K8s平台搭建
原创
发布博客 2023.04.20 ·
1405 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

如何通过开源项目搭建私有云平台--第三步补充,harbor升级

昨天编写第三步的时候,无意发现原来之前使用的harbor是1.10.17的版本,最新版本是2.8,相差太多了,所以决定升级
原创
发布博客 2023.04.19 ·
447 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何通过开源项目搭建私有云平台--第三步:部署镜像仓库

前文再续,书接第二步,开始部署镜像仓库
原创
发布博客 2023.04.18 ·
745 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何通过开源项目搭建私有云平台--第二步:部署代码仓库

前文再续,书接第一步,安装完Minio后搭建代码仓库,介绍如何用Minio进行代码仓库的备份
原创
发布博客 2023.04.17 ·
959 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

如何通过开源项目搭建私有云平台--第一步:安装Minio

从事K8s私有云平台研发工作差不多5年了,在国企由于不能使用开源工具,所以全部要自研,连K8s都要从二进制开始安装。但去到小厂,如果一切自研,太耗费成本,本系列文章,总结一下,如何通过开源的项目快速搭建私有云平台,并实现CI/CD持续集成过程。
原创
发布博客 2023.04.14 ·
1383 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

PMP考试10大过程组之五质量管理

PMP考试10大过程组之五质量管理
原创
发布博客 2022.06.09 ·
155 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

PMP考试10大过程组之四成本管理

PMP考试10大过程组之四成本管理
原创
发布博客 2022.06.08 ·
110 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多