海量数据技术
EricGogh
热爱技术,严谨务实的工程师
展开
-
海量数据分析处理入门
Hadoop体系结构:Hadoop技术:Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。其来源于Google的MapReduce技术,MapReduce工作原理是将任务分解为成百上千块的小任务,然后发送到计算机集群中。每台计算机再传送会自己那部分信息,MapReduce则迅速整合这些反馈并形成答案。Hadoop除了核心设计思想MapReduce和HDFS(H原创 2012-01-17 21:09:56 · 2033 阅读 · 0 评论 -
Druid简介
Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。特征:为分析而设计——Druid是为OLAP工作流的探索性分析而构建,它支持各种过滤、聚合和查询等类;快速的交互式查询——Druid的低延迟数据摄取架构允许事件在它们创建后毫秒内可被查询到;高可用性——Druid的数据在系统更新时依然可用,规模的扩大和缩小都不会造原创 2015-10-20 13:46:04 · 1125 阅读 · 0 评论 -
有序漏斗分析-Druid实践
有序漏斗分析一、背景漏斗分析是常见数据分析的一种,通过分析用户在网站的行为,帮助运营人员分析一个多步骤过程中每一步的转化与流失情况。比如定义一次电商活动(指定时间范围比如最长30天)中用户行为:访问网站 -> 到达商品推荐页 → 查看商品 → 生成订单,统计用户从访问网站到下订单完成转化的数据就自然地形成了一个漏斗。通过上述描述得出几个关键词:用户行为有序分析有转化时...原创 2018-05-02 15:21:20 · 2604 阅读 · 0 评论 -
访客路径分析-Druid实践
一、背景访客分析是常见数据分析的一种,通过如上图(Google Analytics)以比较直观的方式展现用户达到网站后各条访问路径的流失情况,帮助网站优化减少流失率。访客路径分析有如下几个关键点:用户访问的路径通常有多级,默认展开包含着陆页在内的5级路径,支持往后每点击一次展开一级路径(最高支持到10级,再往后意义不大)。每级只展示top 5访问数的网页,每级路径网页之间连接线...原创 2018-05-04 17:16:53 · 1302 阅读 · 2 评论