自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据清洗(8.3.5-8.3.6)

一、加载用户数据至用户维度表1.打开Kettle工具创建转换load_dim_customer,并添加“表输出”控件、“映射(子转换)”控价、“字段选择”控件、值映射控件、“维度查询/更新”控件,以及Hop跳连接线。2.配置“表输入”控件,进入“表输入”界面单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL数据框中编写用于获取字段customer_last_update中的最大值,将该值替换成1970-01-01 00:00:00并赋值给临时字段max_dim_customer_

2021-11-15 15:35:53 689

原创 数据清洗示例(8.3.7-8.3.8)

一、加载演员数据至演员维度表1.打开Kettle工具,创建转换,load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线。2.配置“表输入”控件,点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL框编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为1970-01-01, 00:00:00并赋值给临时字段max_dim_actor_last_update;单击“预览”按钮,查看临

2021-11-14 16:46:47 972

原创 数据清洗(第七章操作题)

一.现有两张数据表,分别为full_source和fulltarget,其中full_source为源数据表,full_target为目标数据表,数据表Full_source和full_target,使用Kettle工具,实现将full_source中的数据全量加载到数据表full_target中。1.使用Kettle工具创建转换full_load,并添加“执行SQL脚本”控件,“表输入控件",“表输出控件”,以及Hop连接线。双击执行SQL脚本控件,进入执行SQL语句界面2.配置数据库SQL框中编

2021-11-08 10:33:01 429

原创 数据清洗(第八章示例)

一、加载日期数据至日期维度表1.打开Kettle工具创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线。2.配置“生成记录控件”,双击生成记录界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年日期(10*365);在“字段”框添加字段language(语言),country_code(国家码),initial_date(初始化日期),对生成的日期进行初始化。3.配置“增加序列”控价,

2021-11-04 23:49:31 498

原创 ETL作业(Excel输入,生成记录,生成随机数,获取系统信息,排序记录,去除重复记录,替换NULL值)

1.Excal输入首先通过Excal建立一个.xls文件,向其中输入数据。建立转换,建立Excal输入控件。双击Excal输入控件,点击浏览选中物理.xls文件,点击添加。点击工作表,输入要读取得工作列表。点击字段选项,点击获取来自头部数据的字段…2.生成记录在工作中,往往需要生成随机数验证码,作为数据或文件的验证码。为方便给授权用户验证文件,需要通过生成随机数,生成一组MD5信息授权码,作为数据文件的认证授权码。首先建立一个转换,建立生成记录控件。双击打开生成记录控件,填加相关字段点

2021-10-30 15:17:19 816

原创 数据清洗第六章操作题

一、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。1.打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线。2.配置文本文件输入控件,双击“文本文件输入”控件,进入“文本文件输入”界面,单击【浏览】按钮,

2021-10-19 21:10:24 392

原创 数据清洗第五章操作题

1.对merge.csv进行去重1.打开Kettle工具创建转换repeat_transform,并添加“CSV文件输入控件”、“唯一行(哈希值)”以及Hop跳连接线。双击“CSV文本输入”控件,进入“CSV文件输入”界面,点击浏览按钮,选择要去重的CSV文件,如图点击获取字段,Kettle会自动检索CSV文件,并对文件属性就行分析,单击预览,查看CSV文件是否被加载到CSV文件输入流中。2.匹配“唯一行(哈希值)”控件双击“唯一行(哈希值)”控件按钮,进入“唯一行(哈希值)”界面“用来比较的字

2021-10-16 15:32:27 138

原创 数据清洗读书笔记第四章

1.CSV文件的抽取1.打开Kettle工具创建一个csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop连接线,用来实现CSV文件数据的抽取功能。进入“CSV文件输入”控件,进入“CSV文件输入”界面,点击浏览,选取文件csv_extract.csv点击获取字段按钮,Kettle自动检索CSV文件,对文件中的字段类型,格式,长度,精度等属性进行分析。2.双击“表输出”,进入表输出界面,点击“新建”按钮,进行配置数据库连接,勾选指定数据库字段复选框,将csv_extract.

2021-10-06 15:56:43 248

原创 数据清洗作业(Kettle转换和作业的例子)

1.转换1.双击Kettle下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”—>“新建”->“转换”命令创建一个转换。在Kettle主界面的工作区右击空白处,从弹出的快捷菜单中选择“新建注释”的命令,并且添加注释内容。然后单击“输入”,把“表输入”拖曳到Kettle工作区;单击“输出”,将“文本输入”拖曳到Kettle工作区。按住Ctrl同时选中“表输出”和“文本文件输出”并右击,从弹出的快捷菜单中选择“新建节点连接”命令,在弹出的窗口中选择“起始步骤”和“目标

2021-10-06 12:11:17 722

原创 数据清洗第二章读书笔记

1.基于ETL的数据清洗1.1 ETL的概念ETL是英文Extract-Transform-Load的缩写,用来描述将数据从源端经过抽取、转换、加载至目的端的过程。企业中常用的ETL实现有多种方法,常见方式如下:(1)借助ETL工具。(2)编写SQL语句。(3)将ETL工具和SQL语句结合起来使用。1.2 ETL的体系结构ETL主要是用来实现异构数据源数据集成的,多种数据源的所有原始数据大部分未作修改就被载入ETL,集成后的数据被置于数据库的数据表和数据仓库的维度表中。图中数据源1和数据源

2021-10-04 16:16:00 274

原创 数据清洗读书笔记(第一章)

近年来,大数据技术掀起了计算机领域的新浪潮

2021-09-12 10:17:06 625

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除