数据清洗读书笔记
文章平均质量分 70
guyanxi
这个作者很懒,什么都没留下…
展开
-
2021-11-14
8.3.7加载演员数据至演员维度表使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示。配置表输入控件配置表输入2控件配置插入/更新控件运行转换load_dim_actor查看数据表dim_actor中的数据8.3.8加载电影数据至电影维度表使用Kettle工具,创建一个转换load_dim_film,并添加表输入控件、数据库查询控件、值映射控件、列拆分为多行控...原创 2021-11-14 22:16:37 · 276 阅读 · 1 评论 -
2021-11-14
8.3.5加载用户数据至用户维度表使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。双击“表输入2”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的..原创 2021-11-14 21:50:15 · 148 阅读 · 0 评论 -
2021-11-05
加载日期数据至日期维度表单击目标表右侧的【浏览】按钮,选择输出的目标表,即维度表dim_date;勾选“指定数据库字段”的复选框,用于将维度表字段与JavaScript控件流中的变量字段进行匹配如图所示。单击【输入字段映射】按钮,弹出“映射匹配”对话框,依次选中“源字段”选项框的字段和“目标字段”选项框的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,若“源字段”选项框的字段和“目标字段”选项框的字段相同,则可以单击【猜一猜】按钮,让Kettle自动实现映射,具体如图所示。.原创 2021-11-05 08:52:23 · 1686 阅读 · 0 评论 -
kettle 数据加载
假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。数据表full_source和full_target的内容如图所示。使用Kettle工具,创建一个转换full_load,并添加执行SQL脚本控件、表输入控件、表输出控件以及Hop跳连接线,具体如图所示。双击“执行SQL脚本”控件,进入“执行SQL语句”界面,具体如图所示。单击【新建】按钮,配置数据库连接,.原创 2021-11-02 21:27:04 · 265 阅读 · 0 评论 -
Excel输入,生成记录,生成随机数,获取系统信息,排序记录,去除重复记录,替换NULL值
1.Excel输入使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中,如图所示。Ø使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中,如图所示。双击【Excel输入】组件,弹出【Excel输入】对话框,其中显示默认的【文件】对话框,如图所示。需要注意的是,【Excel输入】对话框下方的【预览记录】.原创 2021-11-01 17:33:47 · 704 阅读 · 0 评论 -
2021-09-08
1. 实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。(1)打开Kettle工具,新建转换 使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线,具体效果如图所示。(2)配原创 2021-10-26 16:43:20 · 188 阅读 · 0 评论 -
数据清洗第五章
一 对文件merge.csv进行完全去重通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。双击“CSV文件输入”控件,进入“CSV文件输入”配置界面。单击【预览】按钮,查看CSV文件merge.csv的数据是否加载到CSV文件输入流中。双击“唯一行(哈希值)”控件,进入“唯一行(哈希值)”配置界面。在“用来比较的字段”处,添加要去重的字段,这里可以单击【...原创 2021-10-17 22:46:03 · 96 阅读 · 0 评论 -
用kettle实现转化和作业(基于数据清洗)
一 用kettle实现转化1.介绍转化是ETL解决方案中重要的组成部分之一,主要用于数据的抽取,转化以及加载等操作,其本质是一组图形化的数据转化配置的逻辑结构。一个转化包括一个或多个步骤,如读取文件,过滤输出行,数据清洗或将数据加载到数据库中等步骤。2.流程介绍(1)启动kettle工具,在工具栏处选择“文件”→“新建”→“转换”,依次操作就创建好了一个转换。点击“文件”→“保存”可自定义转换名称和保存路径。点击核心对象,切换到转换的核心对象页面。右键单击工...原创 2021-09-16 20:19:36 · 1224 阅读 · 0 评论 -
数据清洗第一章读书笔记
一 数据质量的评价指标1.准确性要求数据中的噪声尽可能小。为提高数据的准确性,需要对数据集进行降噪处理。2.完整性指数据信息是否存在缺失的情况。3.简洁性就是要尽量选择中药的本质属性,并消除冗余。在数据挖掘时,特征的个数越多,产生噪声的机会就越大。二 数据质量的问题分类1.基于数据源的“脏”数据分类脏数据:通常情况下,将数据源中不完整,重复以及错误的数据称为“脏”数据。...原创 2021-09-08 21:22:51 · 995 阅读 · 0 评论