自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 第8章 综合案例—构建DVD租赁商店数据仓库

第八章 综合案例—构建DVD租赁商店数据仓库

2022-11-20 16:46:26 2998

原创 数据粒度的转换

数据粒度转换:业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系统数据按照数据仓库粒度进行聚合,这个过程就被称为数据粒度的转换。例如,将城市转换成省份或者直辖市。通过Kettle工具将对数据表company进行数据粒度的转换操作,即将数据表company中字段为salesArea的数据都统一成省级份,并存储到新数据表company_new中。

2022-10-14 21:31:25 2029

原创 Kettle-7.0安装

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、 Unix.上运行,绿色无需安装,数据抽取高效稳定。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

2022-09-21 17:06:19 1164 1

原创 获取网页:“https://www.5iai.com/#/jobList”中的所有省份城市城区信息及其邮编,并将结果存储于excel文件中。

爬取https://www.5iai.com/#/jobList网站地区信息和邮编

2024-03-08 10:27:42 204 1

原创 爬取豆瓣网图书TOP250的数据(一共250本书),书名、链接、作者、出版社、出版时间、价格、评分、评语

爬取豆瓣网图书TOP250的数据(一共250本书),书名、链接、作者、出版社、出版时间、价格、评分、评语。

2024-02-28 21:57:36 786 1

原创 XML文件的数据抽取

XML是一种可扩展标记语言,也是一种元标记语言,所谓“元标记”就是开发者可根据自己的需要自定义标记。XML是一种很像HTML的标记语言,但是它们也有很大的区别,譬如XML被设计出来主要用于传输和存储数据,其焦点是数据的内容,而HTML被设计出来主要用于显示数据,其焦点是数据的外观;XML中的标签是没有被预定义的,都是由XML文档的创作者发明的,HTML中的标签是预定义的,其文档中使用的标签必须是在HTML标准中定义过的,对于用户自己定义的标签是不可使用的。

2022-11-25 21:45:54 2882 1

原创 第四章 Tsv文件的抽取

TSV是Tab-separated values的缩写,即制表符分隔值。使用制表符分隔数据字段的文件被称为制表符文件。制表符文件中的数据以表格结构储存,每一行储存一条记录,每条记录的各个字段间使用制表符分隔。大多数的操作系统和常用文本编辑器中,按一次“Tab”键表示默认插入一个制表符。通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。

2022-11-25 19:26:11 713

原创 Kettle-数据的迁移和装载

Kettle-迁移和装载,主要实现Excel输入,表输出,插入更新。

2022-10-28 17:49:57 1451

原创 Kettle第五章-高级转换

kettle高级转换,记录集连接,多路数据合并,公式转换。

2022-10-21 21:08:58 4823

原创 kettle-数据加载&全量加载&增量加载&批量加载(第七章)

数据的预处理过程,除了包括数据抽取、数据本身的清洗与检验以及数据转换操作,还包括数据加载操作,数据加载是数据预处理过程的最后一个步骤,主要是负责将清洗检验、转换后的高质量数据加载到目标数据库中。数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。

2022-10-19 15:44:01 941

原创 6.4.数据的商务规则计算(第6章)

不同的企业,有着不同的业务规则和数据指标,这些指标应该计算完存储到数据仓库中,供企业决策者进行分析,从而得出战略性的企业决策。例如,A公司和B公司的总公司想要得知各省份的手机日销售额,这就属于一个商务规则。

2022-10-19 13:41:04 420

原创 不一致的数据源转换

kettle实现不一致的数据源转换

2022-10-12 17:13:18 801 1

原创 Kettle-多数据源合并

kettle实现多数据源的合并

2022-10-12 16:35:48 1251

原创 第五章 Kettle数据的清洗与检验

kettle完全去重kettle实现缺失值填充

2022-10-02 11:13:33 1576 1

原创 第四章 CSV文件抽取和JSON文件抽取

kettle抽取csv文件、json文件

2022-10-01 21:20:25 644

原创 Kettle第三章邮件发送

Kettle实现邮件的发送

2022-10-01 18:09:18 1063

原创 Kettle工具的基本使用(第三章)

Kettle基本工具的基本使用,字段拼接。

2022-10-01 14:20:13 1384

原创 Java web实现简单注册界面

Java web 注册页面,实现了邮箱、电话号、空值检验。

2022-09-25 23:07:26 435

原创 kettle web数据抽取

用kettle进行网页数据的抽取

2022-09-24 22:53:15 1523

python基础语法+基础知识

主要包含了python基础语句、数据容器、面向对象等方面的基础知识

2024-06-26

使用PyQt5实现的五子棋对战游戏

游戏实现了人机对战,双人对战,并加入了音乐效果

2024-03-10

大数据+网络爬虫+数据可视化

本项目利用了网络爬虫技术,获取豆瓣电影《周处除三害》的影评信息进行数据分析,主要包括数据爬取、数据处理、数据可视化、LDA主题模型几部分

2024-03-08

京东商城华为WATCH 4评论数据爬取及可视化分析

资源主要包括京东商城华为WATCH4数据爬取、数据清洗、可视化以及LDA模型建立进行情感分析,运用者需更改代码里面文件路径为自己的即可

2024-03-08

sakila样本数据库

该压缩包文件中包含三个文件,分别是文件sakila.mwb、文件sakila-data.sql和文件sakila-schema.sql。其中,文件sakila.mwb是一个MySQL Workbench数据模型,用于查看数据库结构;文件sakila-data.sql是用于创建数据库sakila的数据;文件sakila-schema.sql是用于创建数据库sakila的数据结构。

2022-11-18

Java web实现简单注册页面

实现了用户名,电话号,邮箱,空值的检验

2022-09-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除