ETL
南极人探险
这个作者很懒,什么都没留下…
展开
-
第8章 综合案例—构建DVD租赁商店数据仓库
案例背景结束:对于在线DVD租赁商店的决策者来说,他们需要从多个不同的商业角度观察数据,例如时间、电影、演员、用户等角度观察数据,并进行相关的分析得出决策,但是数据库中的数据不适合从多个角度进行分析,无法得出战略决策。然而,数据仓库支持复杂的分析操作,侧重于决策支持,并且还提供直观易懂的查询结果,因此我们需要基于数据库sakila创建一个DVD租赁商店数据仓库,并将sakila数据库中的数据加载到数据仓库中,便于在线DVD租赁商店的决策者对数据进行分析得出商业决策。数据下载:我们可以从MySQL的官网下原创 2022-11-29 18:36:41 · 502 阅读 · 0 评论 -
7.2数据的批量加载
假设,现有一个CSV格式的微博用户信息文件weibo_user.csv,其中包含了用户id、用户名称、用户性别、用户简介等字段。使用Kettle工具,创建一个转换batch_load,并添加执行CSV文件输入控件、表输出控件以及Hop跳连接线。通过Kettle工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。在目标表处写出想要输出的表名,然后点击获取字段,然后点击SQL。原创 2022-11-08 17:28:42 · 95 阅读 · 0 评论 -
7.1 数据的加载机制(全量加载+增量加载)
从技术角度来说,全量加载比增量加载的操作要简单很多,即只需要在数据加载之前,将目标数据表进行清空,再将源数据表中的数据全部加载到目标表中。通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。原创 2022-11-08 16:25:47 · 571 阅读 · 0 评论 -
6.4 数据的商务规则计算
通过Kettle工具对数据表company_new中的数据进行商务规则的计算,即对数据表company_new中的数据进行相关处理和计算,从而得出手机在各省份的日销售额,并存储于数据表regional_sales中。使用Kettle工具,创建一个转换total,并添加表输入控件、字段选择控件、计算器控件、排序记录控件、分组控件、唯一行控件、表输出控件以及Hop跳连接线,具体如图所示。我们可以通过对数据表company_new中的数据处理和计算,得出总公司需要的各省份的手机日销售额。原创 2022-11-08 15:48:18 · 222 阅读 · 0 评论 -
6.2 不一致的数据转化
通过Kettle工具将对数据表company进行不一致数据的转换操作,即通过与供货商提供的标准价格表进行比较,得出不一致数据,从而进行修改,最终输出到数据表company中。4. 在字段选择处,选择获取字段,并将unitPrice改名成unitPrice1,然后移除id字段。3. 表输入2中需要在从步骤中插入数据处选择表输入,然后选择执行每一行。使用sql文件建立company和suppliers表格。会发现把那个品牌的价格统一了。原创 2022-11-08 15:22:15 · 103 阅读 · 0 评论 -
6.1 多数据源合并
假设,某公司旗下有两个子公司,分别为A公司和B公司,且这两个子公司均在销售手机,其中A公司的手机日销售情况存储在CSV文件中,即文件company_a.csv;通过Kettle工具将A公司和B公司的手机日销售数据合并到一个数据源(数据表company)中,也就是对文件company_a.csv和数据表company_b中的数据进行合并操作,并输出到数据表company中。需要事先在mysql中使用company_b.sql进行创建表,然后在表输入创建数据连接,然后获取SQL查询语句。原创 2022-11-08 15:21:34 · 279 阅读 · 0 评论 -
5.4数据检验
通过Kettle工具,使用弱一致性对数据表Personnel_Information中的数据进行一致性处理,即利用数据表Personnel_Information中的字段GENDER中的值训练出一个健康值预测模型,用于将原始数据中的字符串特征转化为模型可识别的数字特征。使用Kettle工具,创建一个转换data_validation,并添加“自定义常量数据”控件、“计算器”控件、“数据检验”控件、“空操作”控件以及Hop跳连接线。通过Kettle工具,对数据进行检验操作。原创 2022-11-06 22:32:18 · 113 阅读 · 0 评论 -
5.2去除重复数据 和5.3异常值处理
通过使用Kettle工具,创建一个转换fill_missing_value,并添加“文本文件输入”控件、“过滤记录”控件、“空操作(什么也不做)”控件、“替换NULL值”控件、“合并记录”控件、“字段选择”控件以及Hop跳连接线。1、通过使用Kettle工具,创建一个转换delete_missing_value,并添加“文本文件输入”控件、“字段选择”控件、“过滤记录”控件、“Excel输出”控件、“空操作(什么也不做)”控件以及Hop跳连接线。其实感觉并不需要去过滤记录可以直接替换啊很奇怪。原创 2022-11-06 22:05:48 · 717 阅读 · 0 评论 -
5.1 数据去重
在唯一行处点击获取,可以把需要用来做比较的字段,一旦三个字段都相同就需要只保留其中之一。在csv文件输入界面将所需文件导入并点击获取字段,通过预览来确定是否将文件获取成功。通过Kettle工具,将文件people.txt中不完全重复的数据进行去重处理。通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。分隔符将分号删掉,点击旁边的InsertTab,将头部去掉。在文本文件输入界面中将文件增添到选中的文件中。原创 2022-11-05 17:25:33 · 149 阅读 · 0 评论 -
4.2抽取Web数据
通过使用Kettle工具,创建一个转换转换xml_extract,并添加“Get data from XML”控件、“表输出”控件以及Hop跳连接线,具体如图所示。4.在Java代码界面双击“Code Snippits”→ “Common use”→ “Main”,添加Java脚本代码的主方法,即程序入口。单击“Java代码”控件中的“字段”选项卡,用于添加新生成的字段;单击“参数”选项卡,用于传入参数。在“Java代码”控件中的代码框编写抽取HTML网页数据的Java脚本代码。原创 2022-11-04 20:29:27 · 193 阅读 · 0 评论 -
4.1 ETL将文本文件输出到数据库表中
通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。在表输出处新建连接,然后再目标表中填入想创建的目标表名点击SQL然后执行,记得把指定数据库字段,然后获取字段。内容把分隔符改掉,这里是改成TAB,然后把头部去掉。首先还是把组件都弄好然后打开文本文件输入。字段选择获取字段,然后改个名。文本文件浏览之后记得点增加。原创 2022-10-31 22:07:25 · 415 阅读 · 0 评论 -
3 用kettle对数据库中的表进行字段拼接
通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。即将数据表personal_a中的字段surname和name进行拼接,然后插入到数据表personal_b。用于查询的字段一般用id(可以选择的)然后点击编辑映射,将想要输入表中的数据字段添加进来。点开JavaScript代码,输入代码,然后点击下方的获取变量(可以改名也可以不改)在表输入的界面中选择获取SQL查询语句,找到所需要输入的数据然后确定就好了。第一步现在步骤的输入框中输入组件名字,将所有组件连接起来。原创 2022-10-31 21:04:33 · 2350 阅读 · 0 评论