自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 增量加载

增量加载是指目标表仅加载源数据表中新增和发生变化的数据。优秀的增量加载机制不但能够将业务系统中的变化数据按一定的频率准确地捕获并加载到目标表中,同时还不会对业务系统造成太大的压力,也不会影响现有业务。表incremental_target数据展示。三,配置“插入/更新”控件。二 ,配置”表输入“控件。

2022-12-01 23:09:54 142

原创 数据的批量加载

通常,对于几千条甚至几万条记录的数据迁移而言,采取DML(数据操纵语言)的INSERT语句能够很好地将数据迁移到目标数据库中。然而,当数据迁移量过于庞大时,就不能使用INSERT语句了,因为执行INSERT,UPDATE以及DELETE语句的操作都会生成事务日志,事务日志的生成会减慢加载的速度,故需要针对数据采取批量加载操作。四,查看结果及表weibo_user的创建。表weibo_user的创建。二,配置“表输入”控件。三,配置“表输出”控件。“数据库字段”选项卡。

2022-12-01 14:11:43 440

原创 数据的商务规则计算

不同的企业有不同的业务规则和数据指标,这些指标应该计算完存储到数据仓库中,供企业决策者进行分析,从而得出战略性的企业决策。数据表regional_sales的创建。去重复字段total。二,表输入控件的配置。八,唯一行(哈希值)

2022-12-01 14:04:49 138

原创 不一致数据转换

下面通过kettle工具对数据表company进行不一致数据的转换操作,及通过与供货商提供的标准价格表进行比较,得出不一致的数据,从而进行修改,最终输出到数据表company中,具体实现操作如下。在数据表company中,可以看出存在同一品牌型号的手机,售价却不同,具体如下图。六,配置控件“记录集连接”“第一个步骤”选择字段选择;“第二个步骤”选择表输入3;七,配置控件“字段选择2”三,配置控件“表输入2”四,配置控件“字段选择”五,配置控件“表输入3”八,配置控件“插入/更新。二,配置控件“表输入”

2022-12-01 13:44:24 178

原创 多数据源的合并

下面通过Kettle工具将A公司和B公司的手机日销数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv(如上图)和数据表company_b(如下图)中的数据进行合并操作,并输出到数据表company中,具体操作如下。随着信息技术的发展和科技的进步,人类步入大数据时代,大数据作为当前高科技时代的产物,它的种类多而繁杂。,如果想要得到需要的数据,这些需要的数据有可能会来源于多个不同的数据源中,此时我们可以将多个数据源进行合并操作,从而获取到所需要的数据。“选择和修改”选项卡。

2022-11-30 17:44:59 631

原创 数据一致性处理

1.创建转换2.配置表输入 3.配置值映射 4.配置插入/更新 5.运行转换,查看数据表 6.创建作业 7. 配置Start 8.配置转换 9.运行作业

2022-11-30 16:42:59 61

原创 填充缺失值

1.创建转换2.配置文本文件输入 3.配置过滤记录 4.配置替换NULL值 5.配置合并记录 6.配置替换NULL值2 7.配置字段选择 8.运行转换

2022-11-30 13:39:18 64

原创 不完全去重

1.创建转换 2.配置文本文件输入3.配置唯一行(哈希值) 4.运行转换

2022-11-30 13:32:06 42

原创 完全去重

1.数据准备2.创建转换 3.配置CSV文件输入 4.配置唯一行(哈希值) 5.运行转换

2022-11-30 13:29:39 43

原创 抽取关系型数据库的数据

数据库是按照数据结构组织,存储和管理数据的仓库。在信息化社会,充分有效的管理和应用各类信息资源,是进行科学研究和决策管理的前提条件。本文将对关系型数据库的数据抽取做如下演示。任务背景:从数据库中抽取数据(personal_a),添加到另一张表(personal_aa)中.获取personal_a表中所有数据。2, “数据库字段“选项卡的配置。二,配置“表输入”控件。

2022-11-30 13:24:04 273

原创 XML文件的数据抽取

二,“Get data from XML”控件的配置。1,“文件选项卡的配置”2,“内容”选项卡的配置。3,“字段”选项卡的配置。三,“表输出”控件的配置。1,从kettle看。

2022-11-30 13:18:34 159

原创 HTML网页上的数据抽取

以抽取“豆瓣电影排行榜”网页的超链接为例,分布讲解如何抽取HTML网页的数据,并保存至数据库etl中的数据表html(需提前创建)中。三,“HTTP client”控件的配置。二,配置“自定义常量数据”控件。四,“java代码”控件的配置。1,“元数据”选项卡的配置。2,“数据”选项卡的配置。

2022-11-30 13:14:52 367

原创 4.1.1 TSV文件的抽取

1

2022-11-30 12:02:25 125

原创 3.4 kettle的基本功能

1

2022-11-30 11:54:38 302 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除