关于数据仓库设计中的那些事儿——数据与数据预处理

最新推荐文章于 2022-09-26 10:59:48 发布

不羁之心

最新推荐文章于 2022-09-26 10:59:48 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘文章标签： BI 数据仓库数据挖掘

本文链接：https://blog.csdn.net/dlke03/article/details/84866766

版权

非系统性的阐述一些思想，拍个爪先！

数据与原始数据

数据挖掘领域，一般针对的是文本类的数据，通俗的来说就是广义上的数字（含日期）和文字。但我更想以更广泛的范围讨论数据挖掘的范畴，所以把图片、视频等数据也涵盖其中了。
对于工程而言，一般以数据的传输形式，即离线和实时两个大类别进行划分。传输的内容可能是文件（实时视频数据可以看做分段文件）或是字段等形式。其来源可能是移动端、也可能是数据库；既可能是别人推送过来的，也可能是我们主动获取到的（包括爬虫或数据访问端口）。
数据可能格式异常，或是包含缺失值或异常值等。
由此我们定义第一次获取到的、未经过任何处理的数据为原始数据。原始数据包括字段或是文件。
此外，数据挖掘意义上的原始数据，则是未经过分析处理过的数据，在本文中指的是经过第一次清洗后的数据。

进行系统设计前的准备

首先是要沟通！其次是要沟通！再次是要沟通！
与业务系统的人沟通，除去了解数据来源方式及数据结构外，更重要的是要了解各数据项值的含义，最大程度确定数据的规则。
与分析系统的人沟通，除去了解业务需求外，更重要是知道分析系统后续想要做什么，便于数据仓库细粒度的分层设计。
与老板沟通，最主要是知道公司投入多少人权物钱，便于进行技术选型和相关设计，毕竟很多事是要靠数字（金钱）说话的（泪奔一个），一个高大上的设计往往带来的就是巨额投入，有的老板不喜欢。
最后，一定要清晰认识到，这个世界没有任何事是完美的，你也不例外，要做好else的设计工作。

原始数据缓存设计（SSA层）

一般而言，原始数据需要在系统本地做缓存，一方面是避免某些主动获取（如数据访问端口）对业务系统产生较大压力，另一方面是方便接收别人推送过来的数据，此外更重要的是，数据入仓之前一般会进行一系列操作，这些操作也可能伴随着错误的发生。保留原始数据缓存可以方便进行校验工作。
缓存形式建议以文件服务器、NoSql数据库和RMDB综合使用，其中前两者主要针对实时传输和绝大多数重复型离线的数据，而后者一般针对非重复的、结构化的数据（如数据格式与度量单位，这一点很重要）。
SSA层需要综合考虑传输性能与数据吞吐能力，建议考虑动态扩容。
若资源足够，建议针对同一数据通过多条࿰

最低0.47元/天解锁文章

不羁之心

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于数据仓库设计中的那些事儿——数据与数据预处理

非系统性的阐述一些思想，拍个爪先！数据与原始数据数据挖掘领域，一般针对的是文本类的数据，通俗的来说就是广义上的数字（含日期）和文字。但我更想以更广泛的范围讨论数据挖掘的范畴，所以把图片、视频等数据也涵盖其中了。对于工程而言，一般以数据的传输形式，即离线和实时两个大类别进行划分。传输的内容可能是文件（实时视频数据可以看做分段文件）或是字段等形式。其来源可能是移动端、也可能是数据库；既可能是别人...
复制链接

扫一扫

专栏目录