- 博客(7)
- 收藏
- 关注
原创 minio+kettle+airflow实现采集数据自动入库
Kettle最早是一个国外开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。分为商业版与开源版。可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶。它允许管理来自不同数据库的数据,把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle几乎支持市面上所有的数据库系统,对于传统数仓来说这是镇海神针,传统数仓分析必备神器。
2022-10-31 18:11:54
2692
1
原创 kettle输入输出速度很慢怎么办
kettle在连接数据库进行表输入输出时,速度很慢,具体如下图所示修改配置参数提高了近100倍,速度快到起飞。
2022-09-16 09:50:17
8861
6
原创 python办公自动化-合并excel表
现有一堆表格,要求将多个表格合并到同一个表格。第二种,取sheet1一起合并到同一工作簿。第一种取sheet1分别合并到同一工作表。
2022-09-13 10:13:02
472
原创 hive中的小tips
1.修改表中分割符类型alter table dept set serdeproperties('field.delim'=' '); //分隔符修改为空格
2021-08-16 01:23:59
95
原创 开发环境下的RDD分区所遇到的报错java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.c
当你在网上查找一大堆解决方案的时候发现还是报错,那么极大的可能就是你的Hadoop版本跟spark版本不一致。本人就是这个问题,非常弱智的错误,
2021-08-08 21:13:08
117
原创 使用sqoop将mysql数据上传至hdfs出现找不到类的问题
问题:java.lang.Exception: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class staff not found准备插入一张表staff,在Linux中输入以下命令bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/company?useSSL=false \--username root \--password 123456 \
2021-08-04 02:03:25
2115
4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人