自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(81)
  • 收藏
  • 关注

原创 Azure databricks 还原备份的操作

起因:databricks 面临从HK迁移到国内的情况,目前只是迁移单个库就好,不需要全迁移,问了下azure的技术支持,把数据通过azure客户端azure copy 到指定源–》目标 目录就可。那拷贝过来后如何读取在storage目录中的数据呢?主要用的是python脚本来读取。

2024-03-28 17:20:13 371

原创 azure databricks 一般会建议把数据存入到“存储帐户”blob上 ,如果直接放到workspace成本实在是太高了

2、删表的时候的时候也需要指定,我记得一开始使用的那个版本drop table 的时候blob上面的对应的文件依赖存在,需要指定删除目录才是彻底删除(现在可能不一样了)1、你新建库的时候你需要指定blob上的目录,要不然每次建库下面的表还是会在workspace内。1、需要提前建立好databricks与blob之间的认证(可以让azure的技术支持配置好)6、表连续python脚本删除如下。3、建库分层与建表需要注意的细节。5、表删除是相似的我就不列出来了。2、就可以正常使用,创建库表。

2024-03-22 17:55:19 353

原创 Azure databricks spark overwrite 全量更新的时候容易碰到的问题

1、 databricks spark overwrite 到的的时候会先TRUNCATE TABLE 然后再写入,就会碰到查询是空的情况,解决办法是用存储过程解决先写入_bak表,再通过存储过程改表名的方式完成替换。CALL DDL的在mysql的存储需要自己写哈。

2024-03-22 11:26:48 346

原创 Azure databricks 数据库连接不通的情况shell 常用命令

【代码】Azure databricks 数据库连接不通的情况shell 常用命令。

2024-03-22 11:01:10 94

原创 Azure databricks 流式处理连接事件中心的demo

2、databricks流式处理的demo如下。1、Azure的事件中心是kafka。

2024-03-18 17:56:21 336

原创 azure databricks 常用的JDBC连接

3、sqlservice的连接。4、posgresq的连接。2、oracle 的连接。1、mysql 的连接。

2024-03-18 17:25:48 562

原创 Azure Databricks 集群合并小文件与删除过多的历史版本

原因是:databricks 集群的数据底层是HDFS虽然是spark做为引擎读写如果没有及时合并也一样会因为小文件问题造成大量的资源消耗,也就会越来越慢。目前采用的主要方式,定时合并,与版本删除。1、python 脚本如下有用到的同学可以参考下。2、在workflows 设置好定时器就行了,

2024-03-12 10:27:11 380

原创 Azure databricks上的集群定时重启

databricks 集群重启

2024-03-12 10:18:05 370

原创 pyspark.sql.types 中的类型有哪些

PySpark SQL TYPES是PySpark模型中的一个类,用于定义PySpark数据模型中使用的所有数据类型。

2024-01-25 16:39:27 561

原创 azure databricks因为notebook 日志打多或者打印图片太多,往下拉卡死怎么处理

测试了下搞不定,找azure的工程师,特此笔记如下图。1、同事碰到个问题,databricks 页面卡死不动了。

2023-06-28 17:39:52 848

原创 spark、pyspark 常用的模版 demo 网址

1、我自己有时候用百度或者其他的搜索出来的spark 常用案例,质量有的好有的差有时候就很烦。特地分享一个我常用的质量高的网站地址。

2023-06-28 17:31:20 15529

原创 azure pyspark对Dataframe列类型进行转换

今天碰到需要对dataframe的类型转换,一下不记得了,找来找去浪费时间,还不准。话说GPT都出来这么长时间,CSDN都有合作的了,为什么百度的答案还不如CSDN的GPT(收费很不喜欢这点,拿我们的博客训练的结果反过来收我们的会员钱)

2023-06-20 16:08:22 242

原创 databricks抽取数据因为源字段有新增,如何自动新增字段

1、databricks抽取数据因为源字段有新增,如何自动新增字段,写入delta不报错。2、加入.option(“mergeSchema”, “true”)

2022-10-27 16:06:01 277 1

原创 python连接oracle 官方参考文档的地址

1、今天要测试python连接oracle 百度了一圈一堆错。2、实在受不了上官网翻了半天找到非常详细的,分享如下。

2022-10-21 10:52:01 176

原创 pyspark overwrite oracle truncate修改了表结构

【代码】pyspark overwrite oracle truncate修改了表结构。

2022-09-27 11:14:27 396

原创 pycharm 连接mysql报错 ModuleNotFoundError: No module named ‘MySQLdb‘

1、早上测试用 pycharm 连接mysql报错 ModuleNotFoundError: No module named ‘MySQLdb’2、百度了一圈,很多废话,没有说明原因就一路下载最后找到了一篇资料。

2022-09-25 11:19:29 792

原创 databricks JDBC 连接 旧版的方式(帐号密码的连接方式)

databricks jdbc 连接 旧版的方式

2022-09-08 18:09:52 695

原创 pyspark 单列或者多列去重

pyspark dataframe去重

2022-08-25 13:47:21 481

原创 databricks spark 读取postgresql表

spark 读取postrgresql 表数据

2022-08-15 16:35:24 527

原创 pip install pycrypto 报错 error: command ‘C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\

pip intarll 报错  error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\BIN\\x86_amd64\\cl.exe' failed with exit code 2

2022-07-29 14:23:39 9351 1

原创 databricks如何过入终端

databricks , 终端

2022-07-19 09:27:19 83

原创 python 获取北京时间

python 北京时间

2022-06-17 15:28:43 2684

原创 azure databricks 时区设置

1、公司用了databricks sql 查询的时候时区一直是美国的0时区,不是东八区的时间2、databricks 不太好设置时区,本来想让自己改查询的sql语言。不同意说要改的东西太多了,3、参考如4、操作步骤 先停集群–》edit–>添加 spark.sql.session.timeZone Hongkong (北京时间与香港时间是同一个时区所以复制过来了)。完成后重启如下图5、sql查询执行。完成...

2022-06-16 15:10:17 343

原创 flink cdc 启动 ./sql-client.sh embedded 异常

今天起动flink ./sql-client.sh 异常如下./sql-client.sh embeddedNo default environment specified.Searching for '/data/flink-1.11.2/conf/sql-client-defaults.yaml'...found.Reading default environment from: file:/data/flink-1.11.2/conf/sql-client-defaults.yamlNo

2022-04-21 16:11:47 3512

原创 shell发送http get请求只携带了一个参数的坑

shell curl get 请求特殊字符

2022-04-03 12:07:16 952

原创 JAVA 运行临时jar 包跑数据,指定JAVA类运行

1、因公司业务需要,要清洗一批数据数据量比较大,不太可能放到本地来运行的,写好代码后测试,可以放生产了,发现不记得命令是怎么过行了_!2、如下# 安装好JDK1.8# 用finalshell上传到服务器上用的系统是cents7.x# 命令如下 azureBolb.BlobQpiCsvHandle 是需要运行的类nohup java -cp demoTest-1.0-SNAPSHOT.jar azureBolb.BlobQpiCsvHandle >> qpiEvents.Log 2&am

2022-03-22 14:42:05 402

原创 报错 :no libwebkitgtk-1.0 detected, some features will be unavailable Consider installing the pack

1、今天安装kettle 起动的时候如下警告no libwebkitgtk-1.0 detected, some features will be unavailable Consider installing the package with apt-get or yum. e.g. 'sudo apt-get install libwebkitgtk-1.0-0'2、因为我用的是centos7.x 解决办法如下sudo wget ftp://ftp.pbone.net/mirro

2022-03-17 14:17:59 3184

原创 Azure blob的java客户端开发需要引入的包与官方demo地址

1、官方的地址https://docs.microsoft.com/zh-cn/java/api/overview/azure/storage?view=azure-java-stable2、只是给自己留条笔记顺便给大家看看

2022-03-15 14:45:49 751

原创 Azure databaricks spark 流式处理写入sql pool 参考地址

1、azure 的文档并不好找,案例也不好用,我不知道别人是什么感受,我是这种感觉2、最合适的开发方式是在azure databaricks的netbook上面写spark代码,不要用idea3、欢迎一起吐槽4、有其他的流式处理链接欢迎发我,我们一起学习# 参考的网址https://docs.microsoft.com/en-us/answers/questions/193131/databricks-readstream-writestream-to-azure-synapse.html.

2022-01-26 11:46:28 1400

转载 LC_ALL: cannot change locale (en.US_UTF-8) 问题

故事开头线:今天同事突然对我说ubuntu 环境下突然不能输入中文了(中文乱码),第一次碰到这种情况我也去试了,试着改百度了一圈还不好解决最终找到并解决,由于本人不是原创,但是是安链接上面的方示解决了问题。所以直接复制过来了链接 :https://www.cnblogs.com/lzh0769/p/10646788.html中文# vim /etc/profile.d/locale.shexport LC_CTYPE=zh_CN.UTF-8export LC_ALL=zh_CN.UTF-8#

2022-01-11 10:59:47 1539

原创 scala 2.12 配置环境变量碰到的坑

1、下载scala2.12https://www.scala-lang.org/download/2.12.15.html# 下载完成后无脑安装 建意不要安装在有空格的默认目录有时候会掉坑2、配置环境3、然后再加入path%SCALA_HOME%\bin4、坑来了,本来已为可以了,进入窗口报如下错误'scala' 不是内部或外部命令,也不是可运行的程序或批处理文件。找了半天参考他的解决的,在path下移动scala_hoem到java_home 目录下解决https://blog

2022-01-07 11:46:06 2114 1

原创 win10配置hadoop开发环境

1、因为业务需要,需进行大数据开发2、需要配置环境3、下载hadoop环境需要的包 添加链接描述4、解压好我放到了D盘5、配置环境变量 鼠标右键点击“这台电脑”→“属性”→“高级系统设置”→“环境变量”→“系统变量”→“新建” 配置 HADOOP_HOME6、接着找系统境变量Path,将 %HADOOP_HOME%\bin;%HADOOP_HOME%\sbin 添加进去7、haddop version然后报错了C:\Users\yang.li1>hadoop version系统找不到

2021-12-13 09:57:17 1514

原创 azure-eventhubs-spark 依赖与版本下载地址

1、百度比较难找 azure-eventhubs-spark 。2、所以我把maven依赖的地址晒出来https://mvnrepository.com/artifact/com.microsoft.azure/azure-eventhubs-spark

2021-12-09 15:57:07 1023

原创 spark消费kafka数据报错 Queries with streaming sources must be executed with writeStream.start();

有3年没有写spark了一切都是这么陌生MD. 今天跑下还报错,解决参考:https://stackoverflow.com/questions/40609771/queries-with-streaming-sources-must-be-executed-with-writestream-start

2021-12-07 18:55:18 2535

原创 使用连接字符串通过 Spring Boot 连接到 Azure EventHub(类似 Kafka)

0、最近公司在上微软云,需要把数据推到Azure EventHub kafka1、这是我谷歌网上找的资料(我没试过)。看了下比较靠谱。加上国内比较少这方面的资 料就把连接复制到这https://stackoverflow.com/questions/63226387/connect-to-azure-eventhubkafka-like-with-spring-boot-using-connection-string2、我用的是另一种方式,有时间再写一篇...

2021-12-03 10:33:49 1671

原创 flink 启动报错 Exception in thread “main“ java.lang.NoClassDefFoundError: XXX io/TextInputFormat

1、错误如下2、解决办法,把框中的勾上

2021-11-12 09:48:29 1757

原创 docker 完全卸载重装

今天用docker 安装期目的时候出了问题,一起动docker 就会ssh 就会卡住,只能重启服务器,网上找了一圈没有解决,用杀招卸载docker# 删除yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-selinux \docker-engine-selinux \

2021-10-08 16:23:19 1155

原创 记flink消费kafka 数据序列化失败

报错如下Exception in thread "main" org.apache.flink.runtime.client.JobExecutionException: Job execution failed. at org.apache.flink.runtime.jobmaster.JobResult.toJobExecutionResult(JobResult.java:147) at org.apache.flink.runtime.minicluster.MiniClusterJobCl

2021-09-29 11:21:36 685

原创 centos7安装docker-compose

1、今天安装 docker-compose,按官网的提示一步步安装很顺利# 官网https://docs.docker.com/compose/install/2、开始验证的时候掉坑了docker-compose --version执行正常,而sudo docker-compose --version却提示sudo: docker-compose: command not found3、找了一会解决办法# 执行下面命令sudo ln -s /usr/local/bin/docker-comp

2021-09-07 12:02:41 211

原创 centos7.9 安装docker报错 Requires: fuse-overlayfs >= 0.7安装时出现错误docker

ps:今天在服务器上安装docker 发现报错版本异常el7.x86_64---> Package docker-scan-plugin.x86_64 0:0.8.0-3.el7 will be installed---> Package libcgroup.x86_64 0:0.41-21.el7 will be installed---> Package libseccomp.x86_64 0:2.3.1-4.el7 will be installed--> Finis

2021-09-02 18:27:10 3081

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除