数据分析
文章平均质量分 64
喝酸奶舔盖儿的土鳖
事情都是有双面性的。
展开
-
用户信息的获取途径
一、获取用户信息的途径通过用户身份的唯一标识,我们可以通过一些途径来采集用户的基础信息、特征信息及行为信息,然后为每位用户建立起详细的用户信息明细: 1) 用户注册时填写的用户注册信息及基本资料; 2) 从网站日志中得到的用户浏览行为数据; 3) 从数据库中获取的用户网站业务应用数据; 4) 基于用户历史数据的推导和预测; 5) 通过直接联系用户或者用户调研的途径原创 2015-04-17 14:13:40 · 2987 阅读 · 0 评论 -
ETL架构师面试题(三)
抽取一.简述异构数据源中的数据抽取技术。 在数据仓库项目中,需要抽取的数据经常来自不同的数据源,它们的逻辑结构和物理结构都可能不同,即称之为异构数据源。 在对异构数据源进行整合抽取时,我们需要做的事情依次是标识出所有的源系统,对源系统进行概况分析,定义数据匹配逻辑,建立筛选规则,生成一致性维度。 对于源数据的操作系统平台和数据平台各不相同的情况原创 2015-04-27 17:58:50 · 1150 阅读 · 0 评论 -
ETL架构师面试题(二)
架构四.在ETL过程中四个基本的过程分别是什么? Kimball数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取(extract)、清洗(clean)、一致性处理(comform)和交付(delivery),简称为ECCD。1.抽取阶段的主要任务是:读取源系统的数据模型。连接并访问源系统的数据。变化数据捕获。原创 2015-04-27 17:46:29 · 1461 阅读 · 0 评论 -
ETL架构师面试题(一)
本部分的题目来自Kimball的ETL Toolkit著作。仅供参考分析一、什么是逻辑数据映射?它对ETL项目组的作用是什么? 逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息:目标表名:目标列名:目标表类型:注原创 2015-04-27 17:22:50 · 1589 阅读 · 0 评论 -
ETL初步认识
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我原创 2015-04-27 14:44:19 · 770 阅读 · 0 评论 -
ETL架构师面试题(五)
建立映射一.什么是代理键?简述代理键替换管道如何工作。 在维度表的迁移过程中,有一种处理方式是使用无意义的整型值分配给维度记录并作为维度记录的主键,这些作为主键的整型值称为代理键(Surrogate Key)。使用代理键有很多好处,如隔离数据仓库与操作环境,历史记录的保存,查询速度快等。 同时,在事实表的迁移过程中,为了保证参照完整性也需要进行代理键的替原创 2015-04-29 15:53:53 · 974 阅读 · 0 评论 -
ETL架构师面试题(七)
优化/操作一.简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。 数据仓库中的表的基本类型有维度表、事实表、子维度表、桥接表等几类。其中子维度表即雪花模型由支架维度技术处理,桥接表用来处理多值维度或层级结构。 数据仓库中需要加载的各类表之间有相互依赖的关系,所以加载时需要以一定的顺序进行加载。下面是一些加载的基本原则:原创 2015-04-29 16:02:38 · 3013 阅读 · 1 评论 -
ETL架构师面试题(四)
数据质量一.数据质量检查的四大类是什么?为每类提供一种实现技术。 数据质量检查是ETL工作中非常重要的一步,主要关注以下四个方面。1.正确性检查(Corret)检查数据值及其描述是否真实的反映了客观事务。例如地址的描述是否完全。2.明确性检查(Unambiguous)检查数据值及其描述是否只有一个意思或者只有一个解释。例如地名相同的两个县需要加区分方法。原创 2015-04-29 15:48:22 · 978 阅读 · 0 评论 -
ETL架构师面试题(六)
元数据一.举例说明各种ETL过程中的元数据。 元数据是ETL项目组面对的一个非常重要的主题,对于整个数据仓库项目也是非常重要的一部分。对于元数据的分类和使用没有很确定的定义。 通常来说,我们可以把元数据分为三类,分别为业务元数据(Business Metadata),技术元数据(Technical Metadata)和过程处理元数据(Process Ex原创 2015-04-29 15:59:28 · 892 阅读 · 0 评论 -
ETL架构师面试题(八)
实时ETL一.简述在架构实时ETL时的可以选择的架构部件。 在建立数据仓库时,ETL通常都采用批处理的方式,一般来说是每天的夜间进行跑批。 随着数据仓库技术的逐步成熟,企业对数据仓库的时间延迟有了更高的要求,也就出现了目前常说的实时ETL(Real-Time ETL)。实时ETL是数据仓库领域里比较新的一部分内容。 在构建实时ETL架构的原创 2015-04-29 16:11:35 · 1300 阅读 · 0 评论 -
软件系统数据分析的基本流程
软件系统数据分析没有规范的分析流程容易使最后的结果逻辑混乱或者偏离原来的主题,所以一套规范的流程能够使网站分析更加清晰和有效。 软件系统分析其实就是一个发现问题、分析问题的解决问题的过程。问题的发现可以来源于多方面:系统在运营中遇到的问题、用户的反馈和抱怨、日常统计数据的表现异常等;分析问题的过程就是根据遇到的问题运用合理的方法对其进行解释;而最后的解决问题则是最为关键原创 2015-04-17 14:04:44 · 1688 阅读 · 0 评论 -
大数据中数据量打底有多大?
先看下计量单位之间的换算: 1KB (Kilobyte 千字节)=1024B, 1MB (Megabyte 兆字节 简称“兆”)=1024KB, 1GB (Gigabyte 吉字节 又称“千兆”)=1024MB, 1TB (Trillionbyte 万亿字节 太字节)=1024GB, 1PB (Pe原创 2015-05-05 11:31:54 · 2771 阅读 · 0 评论