python
lbl251
这个作者很懒,什么都没留下…
展开
-
Azure Databricks 集群合并小文件与删除过多的历史版本
原因是:databricks 集群的数据底层是HDFS虽然是spark做为引擎读写如果没有及时合并也一样会因为小文件问题造成大量的资源消耗,也就会越来越慢。目前采用的主要方式,定时合并,与版本删除。1、python 脚本如下有用到的同学可以参考下。2、在workflows 设置好定时器就行了,原创 2024-03-12 10:27:11 · 380 阅读 · 0 评论 -
databricks抽取数据因为源字段有新增,如何自动新增字段
1、databricks抽取数据因为源字段有新增,如何自动新增字段,写入delta不报错。2、加入.option(“mergeSchema”, “true”)原创 2022-10-27 16:06:01 · 282 阅读 · 1 评论 -
python连接oracle 官方参考文档的地址
1、今天要测试python连接oracle 百度了一圈一堆错。2、实在受不了上官网翻了半天找到非常详细的,分享如下。原创 2022-10-21 10:52:01 · 176 阅读 · 0 评论 -
pyspark overwrite oracle truncate修改了表结构
【代码】pyspark overwrite oracle truncate修改了表结构。原创 2022-09-27 11:14:27 · 397 阅读 · 0 评论 -
pycharm 连接mysql报错 ModuleNotFoundError: No module named ‘MySQLdb‘
1、早上测试用 pycharm 连接mysql报错 ModuleNotFoundError: No module named ‘MySQLdb’2、百度了一圈,很多废话,没有说明原因就一路下载最后找到了一篇资料。原创 2022-09-25 11:19:29 · 794 阅读 · 0 评论 -
pyspark 单列或者多列去重
pyspark dataframe去重原创 2022-08-25 13:47:21 · 482 阅读 · 0 评论 -
databricks spark 读取postgresql表
spark 读取postrgresql 表数据原创 2022-08-15 16:35:24 · 530 阅读 · 0 评论 -
pip install pycrypto 报错 error: command ‘C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\
pip intarll 报错 error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\BIN\\x86_amd64\\cl.exe' failed with exit code 2原创 2022-07-29 14:23:39 · 9385 阅读 · 1 评论 -
databricks如何过入终端
databricks , 终端原创 2022-07-19 09:27:19 · 85 阅读 · 0 评论 -
python 获取北京时间
python 北京时间原创 2022-06-17 15:28:43 · 2694 阅读 · 0 评论