自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 8.3.9及8.3.10例子

加载租赁数据至租赁事实表一.打开Kettle工具,创建转换load_fact_rental。二.配置表输入控件1.双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。2.在SQL框中编写SQL语句,用于获取字段rental_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_fact_rental_last_update;单击“预览”按钮,查看临时字段max_fa...

2021-11-15 18:33:05 869

原创 8.3.7及8.3.8案例

8.3.8加载电影数据至电影维度表一.打开Kettle工具,创建转换load_dim_film。二.配置表输出控件。1.双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。2.在SQL框中编写SQL语句,用于获取字段film_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_film_last_update;单击“预览”按钮,查看临时字段max_dim_fi...

2021-11-10 16:18:12 959

原创 8.3.5及8.3.6案例

加载用户数据至用户维度表一.打开Kettle工具,创建转换load_dim_customer二.配置表输入控件1.双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。2.在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_update;单击“预览”按钮,查看临时字段max_dim_cus..

2021-11-08 17:31:55 434

原创 第八章作业

8.3.2加载日期数据至日期维度表一.创建转换load_dim_date。二.配置生成记录控件。双击“生成记录”控件,进入“生成记录”配置界面。在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、initial_date(初始化的日期),对生成的日期进行初始化。三.配置增加序列控件。双击“增加序列”控件,进入“增加序列”配置界面,并在“值的名称”处...

2021-11-03 13:06:24 96

原创 Kettle案例笔记

案例6-计算器生成时间维度数据指定一个开始日期,生成连续60天的日期,同时,生成当天的年份,月份,日期,周几,属于本年的第几天,本年的第几周,一个序号。1.创建转换。2.配置生成记录控件。3.配置增加序列控件。4.配置计算器空间,注意字段类型。5.配置字段选择控件。6.运行转换。案例7-Excel输入把这些数据拷贝到excel表格中,生成一个文件,“物理成绩.xls”1.创建Excel输入转换。2.配置Excel输入控件...

2021-10-27 15:08:08 774

原创 第七章 数据加载作业

一.全量加载1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换full_load,并添加执行SQL脚本控件、表输入控件、表输出控件。2.配置执行SQL脚本控件1)双击“执行SQL脚本”控件,进入“执行SQL语句”界面。单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置;在SQL框中编写删除数据表full_target中数据的SQL语句。3.配置表输入控件1)双击“表输入”控件,进入“表输入”配置界面,在SQL框中编写..

2021-10-20 13:15:10 110

原创 数据转换操作题

一.实 现 对 文 本 文 件personnel_data.txt中 的 数 据 进 行 数 据 粒 度 的 转 换 ,即 将 文 本 文 件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。1.打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及H

2021-10-18 19:23:15 254

原创 2021-10-11

数据清洗第五章笔记数据去重一.通过使用Kettle工具,创建一个转换repeat_transform。二.配置CSV文件输入控件。1.双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,具体如图所示。单击【浏览】按钮,选择要进行完全去重处理的CSV文件merge.csv;再单击【获取字段】按钮,Kettle会自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。2.单击【预览】按钮,查看CSV文件merge.csv的数据是否加载到CSV文件输入流中。三.配置唯一行(哈

2021-10-11 16:53:22 195

原创 2021-09-27

数据清洗笔记CSV文件的抽取一.打开Kettle工具,创建转换csv_extract二.配置“CSV文件输入”控件1.双击“CSV文件输入”控件进入界面,单击下图中“浏览”按钮,选择要抽取的文件csv_extract.csv。2.单击下图中“获取字段”按钮自动检索CSV文件,单击“浏览”按钮,查看文件csv_extract.csv中的数据是否抽取到CSV文件输入流中。单击“关闭”按钮,完成“CSV文件输入”控件配置。三.配置“表输出”控件1.双击“表输入”控件进入界面,单击“新建”按钮,配置数

2021-09-27 19:54:57 353

原创 2021-09-13

kettle转换和作业的例子一.转换实例:实现从数据库中读取数据,并把数据写到文本文件中。1.双击Kettle目录下的Spoon. bat脚本,启动Kettle工具,在工具栏处选择“文件”→“新 建”→“转换”命令,创建一个转换,名称默认是“转换1”。2.选择“文件”→“保存”命令,可以对转换进行重命名以及选择转换保存路径,重命名转换为example。3.单击kettle树形列表的核心对象,切换到转换的核心对象界面。4.在kettle主界面的工作区右击空白处,从弹出的快捷菜单中选择“新建注释”命令

2021-09-13 20:10:15 299

原创 2021-09-08

数据清洗第一章笔记1.1 数据清洗的背景由于海量数据的来源是广泛的,数据中会夹杂着不完整、重复以及错误的数据,因此对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。一.数据质量1.数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。2.数据质量的评价指标:准确性、完整性、简洁性、适用性(核心标准)。3.数据质量问题的分类⑴基于数据源的的“脏”数据分类①单数据源模式层(数据库的结构,即关系结构)实例层(关系中具体存储的数据记录或元组)②多数据源

2021-09-08 15:23:42 309

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除