大数据
文章平均质量分 78
诸葛老刘
生命短暂,我用python
展开
-
数据分析训练营 笔记DAY2 精简版
文章目录一. 数据分析的指标体系构建1.1 量化的基本指标1.2 人货场指标体系搭建1.2.1 场景化搭建指标体系1.2.2 关于"人"的维度指标1.2.2.1 RFM模型1.2.3 关于货的指标体系 一. 数据分析的指标体系构建 1.1 量化的基本指标 UV, 人数(unique visitor) PV, 次数 (page view) 1.2 人货场指标体系搭建 1.2.1 场景化搭建指标体系 流量指标 首页UV 主题页UV 商品详情页UV 订单详情页UV 支付页UV 支付成功UV 效率指标原创 2020-11-18 17:05:01 · 323 阅读 · 0 评论 -
数据分析训练营 笔记DAY1 精简版
文章目录一. 漏斗模型(AARRR)二. 人货场2.1 人2.2 货2.3 场三. AIPL模型3.1 AIPL应用示例 一. 漏斗模型(AARRR) 获客(acquistion) , 拉新, 成为新用户 激活(activation) , 让用户跟产品产生互动 留存(retention), 让产品留住用户 变现(revenue), 让用户产生购买行为 传播(referral), 让用户传播产品 二. 人货场 2.1 人 用户质量分析 计算高质量用户的贡献比例(降序,累计,拆线图) 用户分类(标签)原创 2020-11-18 16:10:25 · 511 阅读 · 0 评论 -
大数据hadoop核心之 HDFS和MapReduce
文章目录一.Hadoop简介1.1 hadoop核心之HDFS(分布式文件系统)1.2 hadoop核心之MapReduce(分布式并行计算系统) 一.Hadoop简介 开源的大数据框架 分布式计算解决方案 HDFS+MapReduce 1.1 hadoop核心之HDFS(分布式文件系统) 概念 Block 数据块: 存储单元: 默认大小:64M, 一般设置为128M, 备份x3 Name...原创 2019-06-28 13:17:21 · 516 阅读 · 0 评论 -
大数据hadoop生态之HBase
文章目录HBase简介 HBase简介 官方网站 官方文档 高可靠, 高性能, 面向列,可伸缩,实时读写的分布式数据库 利用HDFS作为其文件存储系统, 支持MapReduce程序读取数据 支持非结构化数据和半结构化数据, 当然也支持结构化数据 用作业务数据 常用关键字说明: RowKey: 数据唯一标识, 按字典排序 Column Family: 列族, 多个列的集合, 最多不超过3个 Ti...原创 2019-06-28 23:11:37 · 288 阅读 · 0 评论 -
大数据hadoop生态之Spark
文章目录1.Spark简介1.1 组件紧密集成2. 与hadoop的区别3.RDDs介绍 1.Spark简介 1.1 组件紧密集成 spark core: 包含spark的基本功能, 包含任务调度, 内存管理, 容错机制等. 内部定义了RDDs(弹性分布式数据集) spark sql 是spark处理结构化数据的库, 像hive sql, mysql一样 应用场景, 企业中用来做报表统计...原创 2019-06-28 19:41:26 · 438 阅读 · 0 评论 -
hadoop生态之hive
文章目录1. hadoop生态之hive定位2. 数据仓库 简介2.1 数据仓库的概念2.2 数据仓库听结构及其建立过程2.3 OLTP和OLAP的区别2.4 数据模型3. Hive简介4. Hive的体系结构 1. hadoop生态之hive定位 2. 数据仓库 简介 2.1 数据仓库的概念 面向主题的, 集成的, 不可更新的,随时间不变化的数据集合,主要用于查询, 它用于支持企业或组织的决...原创 2019-06-29 11:14:34 · 397 阅读 · 0 评论