自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 第八章案例实现3

8.3.7加载演员数据至演员维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示。2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:0

2021-11-21 19:39:01 204

原创 第八章案例2

8.3.5 加载商店数据至商店维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_store,并添加表输入控件、映射控件、数据库查询控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。在SQL框中编写SQL语句,用于获取字段store_last_update中的最大值,将该值替换为”19

2021-11-21 17:00:07 167

原创 数据清洗第八章

数据清洗第八章8.3.2 加载日期数据至日期维度表1.打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2. 配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面。在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码

2021-11-21 16:39:45 400 1

原创 数据清洗(第七章操作题)

一,全量加载1.打开kettle工具,创建转换打开kettle工具创建转换full_load,并添加“执行SQL脚本”控件,“表输入”控件,“表输出”控件以及Hop跳连接线,如图:2.配置“执行SQL脚本”控件双击上图中的“执行SQL”控件,进入“执行SQL语句”界面,如图:单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮,如图:在SQL框中编写删除数据表full_target中的数据的SQL语句,如图:3.配置“表输入”控件双击“表输入”控件,进入“表输入”配置界面,在

2021-11-11 16:55:48 1006

原创 ETL作业(Excel输入,生成记录,生成随机数,获取系统信息,排序记录,去除重复记录,替换NULL值)

一、Excel的输入1.将要处理的文件保存到Excel表中,然后打开kettle创建一个转换并命名,拖入“Excel输入”控件。2.配置Excel表控件点击【 预览数据 】 对话框,展示 Excel 输入的数据,如图所示。二、生成记录1.新建转换,打开“生成记录”控件。2.限制处输入记录内容。3.运行并查看和数据三、生成随机数1.新建一个转换,并拖出“生成随机数”控件。2.配置控件3.批量生成随机数单击【快速启动】按钮,弹出【预览数据】对话框,展示

2021-11-06 10:29:38 605

原创 kettle工具实现数据的颗粒度转换以及珊瑚橘商务规划计算

一.实 现 对 文 本 文 件personnel_data.txt中 的 数 据 进 行 数 据 粒 度 的 转 换 ,即 将 文 本 文 件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及

2021-11-04 11:13:52 157

原创 Kettle:数据去重与缺失值处理

1.对文件merge.csv进行完全去重(1)创建转换使用Kettle工具创建一个转换(保存可修改转换名称),并添加“csv文件输入”控件、“排序记录”控件、“去除重复记录”控件以及Hop跳连接线。(2)配置csv文件输入控件点击“预览”查看该文件是否加载到csv文件输入流中。(2)配置唯一行(哈希值)控件(3)运行该转换,查看结果2.对文件people_survey.txt.中的缺失值进行填充(1)创建转换通过使用Kettle工具,创建一个转换,并添加“文本文件输入”控件、“过滤

2021-10-20 10:47:53 650

原创 2021-10-09

**第四章 CSV文件、JSON文件数据的抽取**一、CSV文件的抽取1.创建转换csv_extract;打开Kettle,依次点击 文件 -> 新建 -> 转换,创建新转换(保存可修改转换名)。点击核心对象,展开输入步骤,选中CSV文件输入控件,拖入Kettle工作区;展开输出步骤,选中表输出控件,拖入Kettle工作区,并用Hop跳线连接。2.配置“CSV文件输入”控件;预览数据3.配置MySQL数据库连接;单击“新建”,配置数据库连接连接,此处的数据库名为extrac

2021-10-09 21:00:22 66

原创 Kettle实现转化 、作业

一、kettle转换1.双击Kettle目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”→“新建”→“转换”命令,创建一个转换,重命名转换为example;2.单击Kettle树形列表的核心对象,切换到转换的核心对象界面,然后单击“输入”,将“表输入”拖拽到Kettle的工作区;单击“输出”,将“文本文件输出”也拖拽到Kettle的工作区;3.按住Ctrl键的同时,选中“表输入”和“文本文件输出”并右击,从弹出的快捷菜单中选择“新建节点连接”命令,在弹出的窗口中选择“起始步

2021-09-29 10:14:11 1206

原创 数据清洗学习笔记

数据清洗学习笔记第一章数据清洗概述数据清洗第一章笔记1.1 数据清洗的背景当今时代,企业信息化的要求越来越迫切。由于海量数据的来源是广泛的,数据中会夹杂着不完整、重复以及错误的数据,因此对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.1.1数据质量的概述数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景需求的程度。数据质量是一个相对的概念(与决策有关)。不同的决策者对数据的质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。1

2021-09-10 20:20:48 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除