ETL
文章平均质量分 55
抽数的工具 各种
for your wish
好记性不如烂笔头。个人笔记用的博客
展开
-
Curl获取GET/POST接口数据然后注入Hive
【代码】Curl获取接口数据然后注入Hive。原创 2022-11-17 09:57:56 · 783 阅读 · 0 评论 -
大数据平台接入API数据
第一步登记数据源 第二步创建抽数任务 第三步,得到的数据如图 第四步 把数据炸开原创 2022-11-09 18:17:30 · 1216 阅读 · 0 评论 -
Kettle安装,使用遇坑
首先连接不上Mysql数据库,缺少驱动,需要下载mysql-connector-java-5.1.44-bin.jar放在lib目录下其次控制面板缺少选项,创建不了作业,快捷键ctrl+alt+N才能创建作业最后向B表插入/更新,插入可行,更新不行。就是因为第二大格的“查询关键字”要只选择主键,不能所有。更新字段,主键选N,不可更新关掉了之后再看见这些转换,作业就需要打...原创 2019-05-16 13:16:56 · 589 阅读 · 0 评论 -
Kettle学习1-随机数写入文本
下载 ,在官网使用windows系统版的kettle的几个子程序介绍原创 2020-11-25 00:34:25 · 650 阅读 · 0 评论 -
Kettle笔记4-日志
文件日志数据库日志原创 2020-12-09 00:26:48 · 583 阅读 · 0 评论 -
kettle笔记6-输出步骤
一、概述 数据库表: • 表输出 • 更新,删除,插入/更新 • 批量加载(mysql,oracle) • 数据同步 文件: • SQL 文件输出 • 文本文件输出 • XML 输出 • Excel Output/Excel Writer 其他(报表、应用)二、数据库输出 1.表输出 使用SQL的方式向数据库插入数据(INSERT) 支持批量提交 支持分区(Date分区) 支持字段转载 2021-03-16 23:15:59 · 539 阅读 · 0 评论 -
Kettle学习笔记7-转换步骤
一、概述 转换步骤分类: 1. 增加新的列 2. 字符串处理 3. 行列变换 4. 排序/排重/字段选择 5. 其他转换步骤二、增加新的列 1.增加常量列 增加一列常量的列 其它增加列的操作大同小异,不一一赘述,只介绍计算器增加新的列 1. 增加常量列 2. 增加序列列 3. 增加分组序列列 4. 增加校验列 5. 增加XML 列转载 2021-03-24 20:42:13 · 426 阅读 · 0 评论 -
kettle从数据库到数据库
连接资源库,创建一个绿色的转化,结果如下表输入表输出原创 2021-04-26 13:46:54 · 147 阅读 · 0 评论 -
Kettle笔记5-输入步骤
生成记录/自定义常量翻译 2020-12-14 22:29:43 · 324 阅读 · 0 评论 -
Kettle学习2-资源库连接/移植/参数化
资源库:保存元数据的地方,元数据(关于数据的数据,描述性数据)ETL的元数据:etl要进行的任务kettle中元数据的存储方式1.资源库文件资源库,数据库资源库,kettle4后资源库类型可以插件扩展2.XML文件.ktr转换文件的XML根节点必须是<transformation>.kjb作业XML的根节点是<job>数据库资源库1.把kettle的元数据串行化到资源库,如R_TRANSFORMATION表保存了kettle转换的名称,描述等.原创 2020-12-08 00:30:27 · 734 阅读 · 0 评论 -
Kettle笔记3-三种运行方式:图形/命令行/API+新建作业
图形界面在spoon,运行/预览,开发人员用命令行在上线后 pan/kitchenAPI API镶嵌进入其他应用输入线程数:右键->改变开始复制的数量设置步骤buffer大小,编辑-设置-杂项,默认一万条。内存溢出时可以改小...原创 2020-12-08 01:14:54 · 1580 阅读 · 0 评论 -
Kettle实现excel和数据库的互导,初使用
平时,如果我们需要将数据导出Excel的话,我们可能会直接复制,然后粘贴出来,但是数据量大的话,就不好用了;或者使用Java等开发语言,写代码,导出Excel;或者一些数据库连接工具自带的导出功能。其实,我们用Kettle的话,还是很方便的,但是平时用下来,Kettle的这个功能还是有些缺陷的,比如导出Excel2007+的时候,经常会报错,我一直也没有解决,这次记录博客顺便研究看看。1. Kettle的下载及使用正式开始之前,我们简单说下Kettle的安装配置啥的,Kettle是绿色的,下载之原创 2020-10-10 09:43:27 · 590 阅读 · 1 评论 -
Kettle数据从txt到数据库表,表到文件
PS:堡垒机上kettle可能无法获取本地计算机中的文件,需要将文件先传到远程分隔符tab删除表头原创 2021-05-06 12:23:41 · 484 阅读 · 0 评论 -
SqoopImport-RDBMS到Hive
本文讲解如何将RDBMS中的数据导入到HIVE表中,命令较为简单,不过需要注意空值的处理。首先,既然都是import,显然上篇(RDBMS到Hdfs)的命令参数绝大部分也适合本篇文章。只不过导入到hive多了一些HIVE固定的参数。HIVE参数概览Hive arguments:--create-hive-table 导入的时候创建hive表--hive-database <database-name> 指定hive的database--hive-drop-import-del原创 2021-04-01 14:24:22 · 200 阅读 · 0 评论 -
SqoopImport-RDBMS导入至Hdfs
本文讲解Sqoop Import命令的详细使用方式,讲解如何通过Import命令将RDBMS中的数据导入到HDFS中,以8个案例让读者迅速掌握Import命令的使用,重点是掌握如何指定导入条件(如指定表、列、分隔符、输出目录等)以及增量导入。import参数概览[root@master bin]# ./sqoop import --helpCommon arguments:--connect <jdbc-uri> 指定JDBC的URL--password <passwo原创 2021-04-01 14:24:38 · 242 阅读 · 0 评论 -
SqoopExport-Hive到RDBMS(乱码)
其实只要掌握了import的用法,export也就分分钟的事就搞定了。因为很多也是通用的,比如–connect,–username,–password,–table,–columns,-m等,还比如上节所说的direct,options-file,job。最大的不同可能就是–target-dir换成了–export-dir。export参数概览[root@master bin]# ./sqoop export --helpCommon arguments: --connect <原创 2021-06-28 14:29:58 · 229 阅读 · 1 评论 -
sqoop中多map的问题以及参数,优化介绍
根据数据量大小分配sqoop map 数量和并发线程数量 -m设置成了多个比如 -m 10,但是必须加上-split-by参数。 sqoop会向关系型数据库比如mysql发送一个命令:select max(id),min(id) from test。然后会把max、min之间的区间平均分为10分,最后10个并行的map去找数据库,导数据就正式开始啦!注意点:1.–...原创 2019-05-16 13:16:09 · 4341 阅读 · 1 评论