自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 minio+kettle+airflow实现采集数据自动入库

Kettle最早是一个国外开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。分为商业版与开源版。可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶。它允许管理来自不同数据库的数据,把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle几乎支持市面上所有的数据库系统,对于传统数仓来说这是镇海神针,传统数仓分析必备神器。

2022-10-31 18:11:54 2692 1

原创 python脚本实现自动生产sql建表语句

废话不多说,先上代码展示效果,然后讲解。

2022-09-28 16:45:41 1135

原创 kettle输入输出速度很慢怎么办

kettle在连接数据库进行表输入输出时,速度很慢,具体如下图所示修改配置参数提高了近100倍,速度快到起飞。

2022-09-16 09:50:17 8861 6

原创 python办公自动化-合并excel表

现有一堆表格,要求将多个表格合并到同一个表格。第二种,取sheet1一起合并到同一工作簿。第一种取sheet1分别合并到同一工作表。

2022-09-13 10:13:02 472

原创 hive中的小tips

1.修改表中分割符类型alter table dept set serdeproperties('field.delim'=' '); //分隔符修改为空格

2021-08-16 01:23:59 95

原创 开发环境下的RDD分区所遇到的报错java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.c

当你在网上查找一大堆解决方案的时候发现还是报错,那么极大的可能就是你的Hadoop版本跟spark版本不一致。本人就是这个问题,非常弱智的错误,

2021-08-08 21:13:08 117

原创 使用sqoop将mysql数据上传至hdfs出现找不到类的问题

问题:java.lang.Exception: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class staff not found准备插入一张表staff,在Linux中输入以下命令bin/sqoop import \--connect jdbc:mysql://hadoop102:3306/company?useSSL=false \--username root \--password 123456 \

2021-08-04 02:03:25 2115 4

hive学习笔记精华版

初学者看这个就够了,越多越难学,Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

2022-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除