自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 综合案例--构建DVD租赁商店数据仓库

一.加载演员数据至演员维度表1.使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线2.配置表输入控件(1)双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮(2)在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_actor_last_updat..

2021-11-18 14:04:18 299 1

原创 综合案例——构建DVD租赁商店数据仓库

四.加载用户数据至用户维度表1.创建转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线2.配置表输入控件(1)双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮(2)在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_u

2021-11-18 00:02:38 365

原创 综合案例——构建DVD租赁商店数据仓库

一.加载日期数据至日期维度表1.创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线2.双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、initial_date(初始化的日期),对生成的日期进行初始化3.配置“增加序列.

2021-11-17 22:26:24 689

原创 数据加载--读书笔记

一.现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。数据表full_source和full_target的内容如表所视,通过使用Kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中1.创建转换full_load,添加“执行SQL脚本”控件、“表输入”控件、“表输出”控件及Hop跳连接线2.配置“执行SQL脚本”控件(1)双击“

2021-11-09 22:09:17 620

原创 《ETL数据整合与处理》--读书笔记

一.Excel输入1.使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中二.生成记录三.生成随机数四.获取系统信息五.排序记录六.去除重复记录七.替换NULL值...

2021-11-09 15:51:02 279

原创 数据转换--读书笔记

1.对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt中。(1)创建转换generalization,并添加各控件及Hop跳连接线(2)配置文本文件输入控件,双击“文本文件输入”控件,单击“浏览”,选择抽取文件,单击“增加”,将要抽取的文件添加到转换中单击“内容”选项卡,在分隔符处清除“;”,单击【I

2021-10-25 10:18:16 58

原创 数据的清洗与检验--读书笔记

一.对文件merge.csv进行完全去重1.创建转换repeat_transform,并添加控件及Hop跳连接线2.配置"csv文件输入"控件3.单击“预览”,查看CSV文件merge.csv的数据是否加载到CSV文件输入流中4. 进入“唯一值(哈希值)”界面,单击“获取”添加需要去重的字段5.单击转换工作区顶部的“运行”按钮,运行转换,实现消除CSV文件merge.csv中完全重复的数据6.选中执行窗口的“唯一行(哈希值)”控件,单击执行窗口的Preview..

2021-10-11 20:15:54 58

原创 ETL-数据抽取

一.抽取CSV文件数据1.创建转换csv_extract,并添加“CSV文件输入”控件,“表输出”控件以及Hop跳连接线2.进入“csv文件输入”界面,选择抽取的文件3.获取字段,并对文件中的字段类型、格式、长度、精度等属性进行分析4.预览文件中的数据是否抽取到csv文件输入流中5.进入“表输出”控件6.配置数据库连接7.选择输出的目标表8.指定数据库字段,用于将数据表csv的字段和CSV文件中的字段进行匹配9.选择“数据库字段”10....

2021-09-29 19:44:18 1282

原创 2021-09-22

ETL-转换

2021-09-22 00:46:59 85

原创 数据清洗---读书笔记

1. 数据清洗的背景1.1 数据清洗的原因:数据的来源是广泛的,数据的类型是多而繁杂的,所以数据中会夹杂着不完整、重复以及错误的数据,直接使用会影响数据决策的准确性和效率。所以,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.2 数据质量1.2.1 概念:数据质量指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求程度。1.2.2 特点:(1)“业务需求”会随时间变化,数据质量也会随时间发生变化。(2)数据质量可以借助信息系统度量,但独立于信息系统

2021-09-12 18:13:20 552

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除