自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Kettle:综合案例--构建DVD租赁商店数据仓库3

目录1.加载演员数据至演员维度表2.加载电影数据至电影维度表1.加载演员数据至演员维度表(1)创建转换使用Kettle工具,创建一个转换,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示(2)配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970

2021-11-12 20:03:00 863 1

原创 Kettle:综合案例--构建DVD租赁商店数据仓库2

目录1.加载用户数据至用户维度表2.加载商店数据至商店维度表1.加载用户数据至用户维度表(1)创建转换使用Kettle工具,创建一个转换,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示2.加载商店数据至商店维度表...

2021-11-10 20:21:33 1926

原创 Kettle:综合案例--构建DVD租赁商店数据仓库

目录1.加载日期数据至日期维度表2.加载时间数据至时间维度表3.加载员工数据至员工维度表1.加载日期数据至日期维度表(1)创建转换使用Kettle工具,创建一个转换,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示(2)配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语

2021-11-04 22:31:26 2108

原创 Kettle:数据加载

本文数据源自《数据清洗》(黑马程序员编著)教材配套数据文件一、现有两张数据表,分别为full_source和full_target,其中full_source为源数据表,full_target为目标数据表。两数据表内容如下图所示:full_source:full_target:使用kettle工具,实现将数据表中full_source中的数据全量加载到数据表full_target中。1.创建转换使用Kettle工具,创建一个转换,并添加执行SQL脚本控件、表输入控件、..

2021-11-02 21:03:28 363

原创 Kettle:源数据获取与处理

目录1.Excel输入2.生成记录3.生成随机数4.获取系统信息5.排序记录6.去除重复记录7.替换NULL值1.Excel输入创建一个新转换,并将Excel输入控件拉入kettle工作区,效果如下:双击Excel输入控件进入其配置界面,单击‘浏览’按钮选择Excel文件,并单击‘增加’按钮将其加入到“选中的文件”中,(可同时添加多个文件)效果如下:单击【工作表】选项卡,单击‘获取工作表名称’按钮,在弹出的窗口中单击选中可用的项目,单击‘>’将该项.

2021-11-02 17:50:45 1281 3

原创 Kettle数据转换

目录1.数据粒度的转换2.数据的商务规则计算数据准备:本文章使用的数据来自一个名为personnel_data.txt的文本文档,其内容如下图所示,本次将对该文件进行数据粒度的转换以及数据的商务规则计算1.数据粒度的转换(1)创建转换使用Kettle工具,创建一个转换,并添加文本文件输入控件、字段选择控件、排序记录控件、记录集连接控件、过滤控件、空操作控件、文本文件输出控件以及Hop跳连接线,具体如图所示:(2)配置“文本文件输入”控件双击“文本文件输入”控件

2021-10-20 20:53:51 4975 1

原创 Kettle:数据去重与缺失值处理

目录1.对文件merge.csv进行完全去重2.对文件people_survey.txt.中的缺失值进行填充本文章使用的数据文件为《数据清洗》(黑马程序员编著)教材配套资源1.对文件merge.csv进行完全去重(1)数据准备本次使用的数据文件名为merge.csv,其中包含9条记录,三个属性(姓名、性别,所在城市),其内容如下图:(2)创建转换使用Kettle工具创建一个转换(保存可修改转换名称),并添加“csv文件输入”、“唯一行(哈希值)”(位于转换步骤中)控件

2021-10-14 17:39:22 2716

原创 Kettle:CSV文件、JSON文件数据的抽取

目录1.CSV文件的数据抽取2.JSON文件的数据抽取1.CSV文件的数据抽取打开Kettle,依次点击 文件 -> 新建 -> 转换,创建新转换(保存可修改转换名)。点击核心对象,展开输入步骤,选中CSV文件输入控件,拖入Kettle工作区;展开输出步骤,选中表输出控件,拖入Kettle工作区,并用Hop跳线连接两个控件(Ctrl同时选中两个控件,单击右键,新建节点连接):配置CSV文件输入控件。双击CSV文件控件,可出现如下界面:单击“浏览”,可选择要抽.

2021-10-08 22:10:08 491

原创 Kettle转换与作业

目录1.Kettle相关概念2.转换实操3.作业实操1.Kettle相关概念一个数据抽取过程主要包括创建一个作业,并且每个作业可以包括多个转换操作,此数据抽取过程可以通过kettle工具完成。Kettle工具的执行分为两个层次及转换和作业,这两个层次最主要的区别在于数据传递和执行方式。转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到.

2021-09-15 21:22:27 3285

原创 数据清洗(黑马程序员著) 第一章读书笔记

现实生活中,我们接触到的数据是海量的,来源广泛的,类型繁杂的。这些原始的数据夹杂着不完整、重复以及错误的数据,如果直接使用,会严重的影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.数据质量的评价指标数据清洗的目的是为了将脏数据洗掉,提高数据质量。而数据质量的评价指标包括四方面:(1)准确性指要求数据中的噪声尽可能小。对于数据中偏离常规、分散小的数据,一般就视为是噪声或异常值,可通过常用的异常值检测方法聚类进行处理。(2)完整性指数据信

2021-09-09 21:03:31 804

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除