大数据
文章平均质量分 83
大数据
hellosc01
喂,你知道吗,有时候,自由意志就是你能主动选择最小概率的路。
展开
-
数据湖和Hudi
目录1 数据湖1.1 什么是数据湖?1.2 数据湖的优点1.3 数据湖 VS 数据仓库1.3.1 本质区别1.3.2 存储位置1.3.3 数据源1.3.4 用户1.3.5 数据质量1.3.6 数据模式1.3.7 敏捷扩展性1.3.8 应用1.4 数据湖的构建1 数据湖1.1 什么是数据湖?是一个数据存储库,用来存储大量的原始数据;是一种数据存储策略,并不与具体的某个技术框架关联,数据库、数据仓库也一样;是专注于原始数据保真以及低成本长期存储的存储设计模式,相当于是对数据仓库的补充;是用于长期存原创 2021-02-19 11:06:21 · 827 阅读 · 3 评论 -
日志采集的挑战
1 典型场景1.1 日志分流与定制处理1.2 采集与计算一体化设计2 大促保障3原创 2021-02-09 17:23:31 · 301 阅读 · 1 评论 -
OLAP技术,数据仓库实施的环节、技术和方法论
数据仓库技术是为了有效地把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模型的总称。1 OLAP技术1.1 OLTP与OLAP2 数据仓库实施的关键环节和技术3 数据仓库实施方法论4 常用数据仓库产品...原创 2021-02-07 10:24:12 · 534 阅读 · 0 评论 -
大数据的概念、特点及应用场景
目录1 概念2 特点3 应用场景1 概念无法在一定时间范围内用常规软件进行捕捉、管理和处理的数据集合;需要新处理模式才能具有的更强决策力、洞察发现力和流程优化能力进行处理的海量、高增长率和多样化的信息资产;2 特点Volume(大量);Velocity(高速):在海量数据面前,处理数据的效率就是企业的生命;Variety(多样):相比以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。这些多类型的数据对数据的处理能力提出了更原创 2021-02-02 12:50:06 · 4464 阅读 · 0 评论 -
维、维度、维度表和事实表
目录0 来自知乎的一个简单解释1 维2 维度3 维度表4 事实表5 星型模式结构示意图0 来自知乎的一个简单解释1 维维是关于一个组织想要记录的视角或观点。2 维度维度是对数据进行分析时采取的一个角度。比如分析产品销售情况,可以按类别来分析,也可以按区域来分析,于是类别和区域就是构成了两个维度;每个维度可以有子维度(维度的属性);3 维度表维度表是对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息;维度表和事实表通过主键和外键联系在一起,形成星型,也称为“星型模式”;对原创 2021-01-27 10:23:35 · 4831 阅读 · 0 评论 -
无线客户端的日志采集
目录0 概述1 页面事件2 控件点击及其他事件3 特殊场景4 H5 & Native 日志统一5 设备标识6 日志传输0 概述无线客户端的数据采集,一是为了协助开发者分析各类设备信息,二是为了帮助各APP更好地了解用户在APP上的各类行为,从而优化APP;无线客户端的日志采集使用采集SDK来完成,在阿里,使用名为UserTrack(UT)的SDK来完成无线客户端的日志采集;日志采集根据不同的用户行为分成不同的事件,“事件”是无线客户端日志行为的最小单位;事件一般分为页面事件和控件点击事件原创 2021-01-23 15:17:40 · 485 阅读 · 0 评论 -
浏览器的页面日志采集
目录1 概述1.1 页面浏览日志采集1.2 页面交互日志采集2 页面浏览日志采集流程2.1 页面访问过程3 页面交互日志采集流程1 概述浏览器的页面日志采集分两大类:页面浏览日志采集、页面交互日志采集。1.1 页面浏览日志采集页面浏览日志采集指采集当一个页面被浏览器加载呈现时的日志;此类日志时最基础的互联网日志,也是当前所有互联网产品的两大基本指标:页面浏览量(Page View,PV)和访客数(Unique Visitors,UV)的统计基础;页面浏览日志时目前成熟度和完备度最高,同时也是最原创 2021-01-22 19:23:50 · 2542 阅读 · 0 评论 -
大数据系统体系架构(含图示)
目录1 大数据体系架构图2 数据采集层3 数据计算层4 数据服务层5 数据应用层1 大数据体系架构图2 数据采集层阿里的的日志采集包括两大体系: Aplus.JS是Web端的日志采集技术方案,UserTrack是APP端的日志采集技术方案;在采集技术基础上,阿里用面向各个场景的埋点规范,来满足通用浏览、点击、特殊交互、APP事件、H5及APP里的H5和Native日志数据打通等多种业务场景;同时建立了一套高性能、高可靠性的数据传输体系,完成数据从生产业务端到大数据系统的传输;在传输方面,采用原创 2021-01-17 17:03:24 · 10756 阅读 · 1 评论 -
数据仓库的概念、特点与组成
目录1 概念2 特点3 体系结构3.1 数据源3.2 数据的存储与管理3.3 前端工具1 概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合;它是出于分析性报告和决策支持目的而创建;为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制;2 特点面向主题:数据库中的数据面向事务进行组织,而数据仓库中的数据原创 2021-01-15 19:13:19 · 3195 阅读 · 0 评论