自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 综合案例—构建DVD租赁商店数据仓库

sakila样本数据库是MySQL官方提供的一个模拟DVD租赁商店管理的数据库。本次就是要对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据库sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标数据仓库中,便于在线DVD租赁商店的决策者对数据进行分析得出商业决策。

2022-11-28 09:39:47 574 1

原创 3.4.1 转换管理

通过Kettle工具的转换来实现将一张数据表中的两个字段进行拼接,然后插入到另一张数据表中。

2022-11-25 15:45:15 347

原创 6.4 数据的商务规则计算

不同的企业,有着不同的业务规则和数据指标,这些指标应该计算完存储到数据仓库中,供企业决策者进行分析,从而得出战略性的企业决策。例如,A公司和B公司的总公司想要得知各省份的手机日销售额,这就属于一个商务规则。

2022-11-12 14:15:00 269

原创 6.3数据粒度的转换

不一致数据转换主要是将不同业务系统中的相同类型的数据进行统一,例如同一个供应商在结算系统的编码是XX0001,而在CRM(客户关系管理系统)中编码是YY0001,这样就需要将这两个业务系统中的数据抽取过来进行统一转换,转换成同一个编码。

2022-11-12 14:00:00 361

原创 7.2数据的批量加载

通常情况下,对于几千条甚至几十万条记录的数据迁移而言,采取DML(即数据操纵语言)的INSERT语句能够很好地将数据迁移到目标数据库中。然而,当数据迁移量过于庞大时,就不能使用INSERT语句,因为执行INSERT、UPDATE以及DELETE语句的操作都会生成事物日志,事物日志的生成会减慢加载的速度,故需要针对数据采取批量加载操作。

2022-11-12 11:03:41 86

原创 7.1.2增量加载

增量加载是指目标表仅加载源数据表中新增和发生变化的数据。优秀的增量加载机制不但能够将业务系统中的变化数据按一定的频率准确地捕获到并加载到目标表中,同时还不会对业务系统造成太大的压力,也不会影响现有业务。通过Kettle工具将数据表incremental_source中的数据增量加载到数据表incremental_target中。

2022-11-12 10:51:35 379

原创 7.1.1全量加载

数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。

2022-11-12 10:38:55 340

原创 5.3 异常值处理

异常值是指样本中的个别值,其数值明显偏离它所属样本的其余观测值,这些数值是不合理的或错误的。

2022-11-12 10:15:00 72

原创 6.2 不一致数据的转换

不一致数据转换主要是将不同业务系统中的相同类型的数据进行统一,例如同一个供应商在结算系统的编码是XX0001,而在CRM(客户关系管理系统)中编码是YY0001,这样就需要将这两个业务系统中的数据抽取过来进行统一转换,转换成同一个编码

2022-11-12 09:54:34 153

原创 6.1 多数据源合并

随着信息技术的发展和科技的进步,人类步入了大数据时代,大数据作为当前高科技时代的产物,它的种类多而繁杂。如果想要得到需要的数据,则这些需要的数据有可能来源于多个不同的数据源中,此时,我们可以将多个数据源进行合并操作,从而获取到所需要的数据。

2022-11-12 09:54:24 110

原创 5.4.2 数据规范化处理

由于数据源系统分散在各个业务线上,不同业务线对于数据的要求、理解和规范也不同,这样就会导致对于同一数据对象的描述规格完全不同,因此在数据清洗的过程中需要将统一数据规范的数据抽取出来进行规范处理。

2022-11-12 09:54:14 227

原创 5.4.1数据一致性处理

数据一致性是指在对一个副本数据进行更新的同时,必须确保也能够更新到其他的副本,否则不同的副本之间的数据将不再一致。例如,当你在某银行已存有5000元,接着又存了1000元,然后跑到另外一个地方游山玩水,需要在当地的银行把这6000元取出来,但是存钱的银行并没有及时将你存钱的信息传给当地的银行,所以当地银行还不知道你已经存了1000元进去,当地银行的工作人员告诉你说账户余额就只有5000元,这时候你的同一个账户的余额在不同地点就出现了不一致。

2022-11-12 09:53:51 606

原创 5.3.4 修补异常值

通过直接删除的方式处理异常值,虽然是最直接方法的方法,但是会减少数据样本,因此在数据集小的情况下,减少数据样本会对结果产生影响;在含有较多异常值的数据集中,大量的删除异常值也会对结果产生影响。因此,当异常值没有可研究性的情况下,应该对这些异常值进行修补处理。

2022-11-12 09:53:42 255

原创 5.2 缺失值处理

缺失值的填充

2022-11-12 09:00:00 85

原创 5.2 缺失值处理

缺失值是指数据集中某个或某些属性的值是不完整的,产生的原因主要有人为原因和机械原因两种,其中机械原因是由于机器故障造成数据未能收集或存储失败,人为原因是由主观失误或有意隐瞒造成的数据缺失

2022-11-11 22:15:00 88

原创 5.1 数据去重 不完全去重

数据清洗过程中,所有字段值都相等的重复值是一定要剔除的。根据不同的业务场景,有时还需要选取其中若干字段进行去重操作

2022-11-11 21:30:00 118

原创 5.1 数据去重 完全去重

数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。数据清洗的目的在于提高数据质量,将脏数据(脏数据在这里指的是对数据分析没有实际意义、格式非法、不在指定范围内的数据)清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。常见的数据清洗操作包括重复值的处理、缺失值的处理、异常值的处理等操作,同时,为了保证数据的有效性,少不了数据校验操作。

2022-11-11 15:37:45 851

原创 4.2.3 JSON文件的数据抽取

json文件的抽取

2022-11-11 15:07:28 646

原创 4.2.2 XML文件的数据抽取

xml文件抽取

2022-11-11 11:31:43 414

原创 4.2 抽取Web数据-HTML网页的数据抽取

html网页抽取

2022-11-11 11:18:45 619

原创 4.1 抽取文本数据-CSV文件的抽取

csv文件的抽取

2022-11-11 10:58:44 248

原创 4.1 抽取文本数据-TSV文件的抽取

tsv文件的抽取

2022-11-11 10:35:54 152

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除