自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 问答 (1)
  • 收藏
  • 关注

原创 数据清洗第八章作业(8.3.7-8.3.8)

8.3.7 加载演员数据至演员维度表1.打开Kettle工具,创建转换,load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线。2.配置“表输入”控件,点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL框编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为1970-01-01, 00:00:00并赋值给临时字段max_dim_actor_last_update;单击“预览

2021-11-19 22:13:58 196 1

原创 数据清洗第八章作业(8.3.5-8.3.6)

一、加载用户数据至用户维度表1.打开Kettle工具创建转换load_dim_customer,并添加“表输出”控件、“映射(子转换)”控价、“字段选择”控件、值映射控件、“维度查询/更新”控件,以及Hop跳连接线。2.配置“表输入”控件,进入“表输入”界面单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮在SQL数据框中编写用于获取字段customer_last_update中的最大值,将该值替换成1970-01-01 00:00:00并赋值给临时字段max_dim_custome

2021-11-19 21:26:42 168

原创 数据清洗第八章作业(8.3.2-8.3.4)

一.加载日期数据至数据维度表1.打开Kettle工具创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线。2.配置“生成记录控件”,双击生成记录界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年日期(10*365);在“字段”框添加字段language(语言),country_code(国家码),initial_date(初始化日期),对生成的日期进行初始化。3.配置“增加序列”控价

2021-11-19 20:45:26 198

原创 全量加载和增量加载例子

一.全量加载现有两张数据表,分别为full_source和fulltarget,其中full_source为源数据表,full_target为目标数据表,数据表Full_source和full_target,使用Kettle工具,实现将full_source中的数据全量加载到数据表full_target中。1.使用Kettle工具创建转换full_load,并添加“执行SQL脚本”控件,“表输入控件",“表输出控件”,以及Hop连接线。双击执行SQL脚本控件,进入执行SQL语句界面2.配置数据库

2021-11-19 19:58:05 471

原创 数据清洗例子

1.Excel输入双击“Excel输入”控件,进入Excel输入控件界面,首先点击“文件”,选择“浏览”按钮,找到物理成绩.xls文件,选择“增加”按钮,如图1所示;然后点击“工作表”,获取工作表名称;最后点击“字段”按钮,添加字段,点击“预览记录”得到数据,具体如下图所示。2.生成记录双击“生成记录”控件,进入生成记录控件界面,首先将限制参数改为12,然后在“字段表”中,对各字段的参数进行设置,最后点击“预览”按钮,弹出“输入预览记录数”对话框,预览记录数采用默认值,单击“确定”按钮。弹出“预览

2021-11-18 21:36:41 376

原创 数据清洗第六章作业

1.打开kettle工具,新建转换使用kettle工具,创建一个转换generalization,并添加相应的控件,具体效果如图6-1所示:图6-1 创建转换generalization2.配置文本文件输入控件6-2 配置文本文件选项卡6-3 配置内容选项卡6-4 配置字段选项卡3.配置字段选择控件6-5 字段选择选项卡的配置4.配置排序记录控件6-6 配置排序记录控件5.配置表输入控件图6-7.完成数据库的连接编写SQL语句完成数据库的连接,最后的配置情况如图所示

2021-11-17 22:10:59 680

原创 浏览器页面被篡改

当浏览器页面被篡改,点击属性,打开,若其.exe后还有一些乱七八糟的后缀,删点桌面快捷方式,再打开原浏览器的地址,重新创建快捷方式就好。

2021-10-17 19:22:13 167

原创 数据清洗读书笔记4(通过Kettle工具,对文件进行完全去重以及缺失值的填充)

一.对文件merge.csv进行完全去重1.打开kettle工具,创建转换使用kettle工具创建转换repeat_transform,并添加“CSV文件输入控件”“唯一行(哈希值)”控件以及Hop跳连接线,具体效果如图5-1所示:图5-1 创建转换repeat_transform2.配置“CSV文件输入”控件双击图5-1中的“CSV文件输入”控件,进入其界面,单击“浏览”按钮,选择要进行完全去重处理的CSV文件merge.csv,如图5-2所示:图5-2 选择要进行完全去重处理的CSV文

2021-10-11 22:30:09 782

原创 ubuntu16.04启动没有图形界面只有命令行

之前用过,卸载之后重新安装,打开只有命令行没有图形界面。在网上荡了好多,试了很多,只有这个奏效了(安装了cuda但不是这个的问题)菜狗卑微的记录命令:sudo apt-get install lightdmsudo apt-get install ubuntu-desktopsudo apt-get install unitysudo service lightdm restart然后重启即可。...

2021-09-30 17:26:15 3719 2

原创 数据清洗读书笔记3(CSV文件的抽取以及JSON文件的抽取)

一.CSV文件的抽取1.打开Kettle工具,创建转换使用Kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,用于实现CSV文件数据的抽取功能,具体效果如图4-1所示:图4-1 创建转换csv_extract2.配置“CSV文件输入”控件双击图4-1中的“CSV输入控件”,进入界面,单击浏览按钮,选择要抽取的文件csv_extract.csv,具体如图4-2所示:图4-2“CSV文件”输入界面单击图4-2中的获取字段按钮,Ket

2021-09-28 23:44:52 225

原创 数据清洗学习笔记 2(用Kettle实现一个转换和一个作业的例子)

用kettle实现一个转换一个作业的例子实践一.用kettle 实现一个转换1.双击kettle 目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”→“新建”→“转换”命令,创建一个转换,名字默认是“转换1”如图3-1所示:图3-1 创建转换2.在图3-1中选择“文件”→“保存”命令,可以对转换实现重命名以及选择转换保存路径,重命名转换为example1,如图3-2和3-3 所示:图3-2图3-3 重命名转换为example13.在3-3中,主对象树中的节点主要

2021-09-21 21:54:43 343

原创 数据清洗读书笔记1

第一章.数据清洗概述由于海量的数据来源是广泛的,数据类型也是多尔繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性以及效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。1.1数据清洗的背景1.1.1数据质量概述概念: 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能能满足业务场景具体需求的程度。从适用性的角度来看,数据质量是以一个相对的概念(与决策者有关),不同的决策者对数据质量的高低要求也是不同的。数据质

2021-09-12 19:18:38 225

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除