自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 《数据清洗》——黑马程序员之综合案例3

目录一、记载演员数据至演员维度表1.打开kettle工具,创建转换2.配置“表输入”控件3.配置“表输入2”控件4.配置“插入/更新” 控件5.运行转换 load_dim_actor6.查看维度表 dim_actor 中的数据二、加载电影数据至电影维度表操作介绍操作步骤与内容一、记载演员数据至演员维度表 通过Kettle工具加载演员数据至演员维度表dim_actor。1.打开kettle工具,创建转换 使用Kettle工具,创建一个转...

2021-11-23 21:02:13 398

原创 《数据清洗》——黑马程序员综合案例2

目录一、加载用户数据至用户维度表1.打开kettle工具,创建转换。2.配置“表输入”控件3.配置“表输入2”控件1.打开kettle工具,创建转换2.配置“映射输入规范”控件3.配置“数据库查询”控件4.配置“数据库查询2” 控件5.配置“数据库查询3”控件6.配置“过滤记录”控件7.配置“JavaScript代码”控件8.配置“字段选择”控件9.配置“映射”控件10.配置“字段选择” 控件11.配置“映射值”控件12.配置“维...

2021-11-22 23:23:36 274

原创 《数据清洗》——黑马程序员综合案例

一、加载日期数据至日期维度表 操作介绍:下面通过Kettle工具加载日期数据至日期维度表dim_data,具体实现步骤如下。1.打开Kettle工具,创建转换 创建转换load_dim_data如图所示2.配置【生成记录】控件 配置结果如下图所示3.配置【增加序列】控件 将图“值的名称”处将valuename 改为DaySequence,即增加一列日期字段,用于改变“生成记录”控件生成的日期。4.配置【JavaScript 代码】控件5...

2021-11-22 21:03:15 598

原创 Kettle 几个实例的操作

1.Excel输入 Excel文件采用表格的形式,数据显示直观,操作方便。 与文本文件不同,Excel文件中采用工作表存储数据,一个文件有多张不同名称的工作表,分别存放相同字段或不同字段的数据。 为方便浏览和统计学生的考试成绩,需要通过Excel输入抽取物理成绩数据。1、建立Excel输入转换工程2、设置Excel输入组件参数(1) 获取选中文件的工作表。 单击【获取工作表名称…】按钮,弹出【输入列表】对话框,左边【可用项目】列表列出选中文件的所有工作表,如“物...

2021-11-12 00:08:57 1136 2

原创 《数据清洗》——黑马程序员之第七章数据加载课后作业

数据的预处理过程,除包括数据抽取、数据本身的清洗与检验以及数据转换操作外·,还包括数据加载操作。数据加载是数据预处理过程的最后一个步骤,主要负责将数据检验、转换后的高质量数据加载到目标数据库中。7.1 数据的加载机制 数据的加载机制和数据的抽取机制类似。数据的加载机制主要分为全量加载和增量加载。其中,全量加载是指将目标表数据中的数据全部删除后进行数据加载的操作;而增量加载是指将目标表只加载源数据表中变换的数据,包含新增、修改和删除的数据。7.1.1 全量加载 全量加载只需在数据加载之...

2021-11-08 22:44:19 711

原创 《数据清洗》——数据转换课后作业

6.3数据粒度的转换业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下会将业务系统数据按照仓库粒度进行聚合,这个过程被称为数据粒度的转换。 下面通过Kettle工具对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一省份,并输出到文本文件personnel_data_new.txt中。1.打开Kettle文件,创建转换...

2021-11-02 23:11:31 565

原创 《数据清洗》——黑马程序员 第五章 数据的清洗与检验的学习总结

目录5.1 数据去重5.1.1完全去重1.数据准备2.打开kettle工具,新建转换3.创建“CSV文件输入”控制4 . 配置“唯一行(哈希值)”控件 ​5. 运行转换5.2 缺失值处理 5.2.1 填充缺失值1. 打开kettle工具,创建转换2. 配置“文本文件输入”控件3. 配置“过滤记录”控件4.配置“替换NULL值”控件5.配置“合并记录”控件6.配置“替换NULL值2”控件​7.配置“字段选择“控件8. 运行...

2021-10-14 22:25:49 731

原创 《数据清洗》——黑马程序员 学习笔记CSV、JSON数据抽取

目录4.1抽取文本数据4.1.1CSV文件的抽取1.打开Kettle,创建转换2.配置“CSV文件输入控件”3.配置“表输出”控件4.2抽取JSON文件的数据抽取1.打开Kettle工具,创建转换2.配置JSON input 控件3.配置“表输出”控件4.运行转换 json_extract4.1抽取文本数据4.1.1CSV文件的抽取 CSV是Comma-Separated Values的缩写,即逗号分隔值。CSV文件是用逗号分隔数据字段的文...

2021-10-11 22:56:41 270

原创 《数据清洗》第三章--Kettle工具的基本使用 学习总结

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言 Kettle 是一款国外免费开源的轻量级ETL工具,是基于Java语言开发的,可以在Windows、L提示:以下是本篇文章正文内容,下面案例可供参考一、pandas示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例.

2021-09-29 13:42:39 2057

原创 黑马程序员《数据清洗》学习总结​

对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.1 数据清洗的背景 在大数据背景下,我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。1.1.1 数据质量概述 数据质量 :是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。 数据质量的显著特点: (1)“业务需求”会随时间变化,数据质量也会随时间发生变化。 (2)数据质量可以借助信...

2021-09-12 17:17:51 1666

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除