大数据
文章平均质量分 89
Storm/Spark/Flink等大数据技术
IM魂影
什么都懂一点点,奔向全栈的路上!
展开
-
使用Redis的bitmaps统计用户留存率、活跃用户
首先我们看一个场景:一个网站,需要统计一周内连续登陆的用户,以及一个月内登陆过的用户或者是用户留存率。如果用传统的数据库如Mysql来实现的话,很难做到。但如果用Redis来做的话,就很简便。Redis的集合类型和Bitmap类型都可以很容易的做到。今天,我们主要来谈谈如何用Bitmaps来实现统计活跃用户的功能。什么是 BitmapsBitmaps 并不是实际的数据类型,而是定义在String类型上的一个面向字节操作的集合。因为字符串是二进制安全的块,他们的最大长度是512M,最适合设置成2^32个转载 2021-06-16 19:32:07 · 737 阅读 · 0 评论 -
Clickhouse 在大数据分析平台 - 留存分析
背景你可能听说过Growingio、神策等数据分析平台,本文主要介绍实现留存分析工具相关的内容。留存分析是一种用来分析用户参与情况/活跃程度的分析模型,可考查进行初始行为后的用户中,有多少人会进行后续行为,这是衡量产品对用户价值高低的重要指标。如,为评估产品更新效果或渠道推广效果,我们常常需要对同期进入产品或同期使用了产品某个功能的用户的后续行为表现进行评估 [1]。大部分数据分析平台主要包括如图的几个功能(以神策为例)本文主要介绍留存分析工具的优化方案(只涉及数据存储和查询的方案设计,不涉及平台)。转载 2021-06-16 15:38:43 · 683 阅读 · 0 评论 -
ELK日志分析系统简介
前言当我们部署集群服务器的时候,日志文件就会散落在多台服务器上。查看日志信息就需要到各个服务器上去取和查看,我们把这些日志文件归集到一个地方统一管理。 这个时候ELK系统出现了,ELK是elasticsearch、Logstashh和Kibana三个系统的首字母组合。 当然ELK不只是查看日志功能这么简单,还有更多的应用。概述Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,原创 2017-08-31 10:32:18 · 888 阅读 · 0 评论 -
搭建ELK日志分析系统(四)-kibana安装和使用
kibana安装和使用本篇是本教程的最后一篇,安装kibana对ELK中的日志信息进行快速查询。kibana是一个数据展示的客户端,提供对es中数据的可视化搜索和展示功能,主要提供了时间维度和数据中字段值的检索。以及功能丰富的看板,能够添加曲线图、饼图、地址分布图等多种样式的展示图形。原创 2017-08-30 19:22:11 · 1374 阅读 · 0 评论 -
搭建ELK日志分析系统(三)-Logstash安装和使用
本教程为什么第三节才说到Logstash? 因为本人在阅读其他网络上的相关资料的时候,很多第一篇都是先安装Logstash,最后运行输出elasticsearch没法看出效果,请看下一节之类!到了下一节又没有相关说明,直接又截图出效果,感觉让人懵逼!所以本教程特意把顺序调整了一下。Logstash安装和使用Logstash的独立性很强,它的用途就是一个内容的转存系统,通过灵活的插件可以做到很多原创 2017-08-30 18:29:46 · 908 阅读 · 0 评论 -
搭建ELK日志分析系统(二)-elasticsearch-head插件安装
安装elasticsearch-head插件elasticsearch5.0之后,head插件换成了采用grunt服务方式启动,需要用npm方式打包安装,所以需先安装nodejs直接下载Linux Binaries格式的NodeJs安装包(安装方便)原创 2017-08-30 15:04:49 · 745 阅读 · 0 评论 -
搭建ELK日志分析系统(一)-Elasticsearch安装
搭建ELK系统有两种方式1、组件独立安装(更深入了解ELK系统的工作流程)2、使用docker容器安装(这种方式配置更简单,快捷方便)本系列文章使用组件独立安装的方式,如果你想使用docker容器安装,请跳过本教程原创 2017-08-30 11:50:06 · 3074 阅读 · 0 评论 -
Zookeeper安装使用
zookeeper要求Java运行环境,并且需要jdk版本1.6以上,同学们自行安装配置。zookeeper的安装分为三种模式:单机模式、集群模式和伪集群模式。单机模式从Apache官网下载一个Zookeeper稳定版本,这里下载3.4.10。原创 2017-10-13 17:23:42 · 788 阅读 · 0 评论 -
Zookeeper查看工具 ZooInspector
查看Zookeeper中的数据,我们可以通过ZkCli.sh命令客户端查看,但是不太直观,因为Zookeeper本身数据是以树型结构存储组织的,今天推荐一个实用的界面操作工具ZooInspector;原创 2017-10-13 15:10:37 · 12483 阅读 · 1 评论 -
Logstash的kafka插件使用
前言关于logstash可以产看其 官网 ,对于英文有障碍的人士,或是想知道更多插件使用技巧的用户请移步 @三斗室 所著作 logstash最佳实战 ,本片内容已经并入其中相关章节. Logstash-kafka简介 https://github.com/joekiller/logstash-kafka插件已经正式合并进官方仓库,以下使用介绍基于 logstash 1.4相关版本 ,1.5转载 2017-11-23 16:30:57 · 3390 阅读 · 0 评论 -
Storm集成Kafka数据源
看本节内容之前,建议你先看看前两节内容。注意安装Storm和Kafka版本问题。maven项目pom.xml添加依赖原创 2017-10-19 18:41:55 · 1338 阅读 · 0 评论 -
Kafka安装配置
Kafka安装配置,Kafka运行依赖 Zookeeper,如未安装Zookeeper请参考(Zookeeper安装使用)原创 2017-10-17 16:32:12 · 1083 阅读 · 0 评论 -
Storm安装配置
准备三台服务器,根据上一节内容安装zookeeper主机名称到IP地址映射配置 修改/etc/hosts192.168.1.101 zoo1192.168.1.102 zoo2192.168.1.103 zoo3下载稳定版Storm 注意:安装的storm版本必须和kafka版本对应,请看下一节内容 官方有两个系列的版本,建议下载旧版本(1.0.X系列) 貌似新版本(1.1.X原创 2017-10-16 16:18:21 · 944 阅读 · 0 评论 -
最详细的Storm入门教程(二)
Storm入门例子详解-单词计数器概念Storm 分布式计算结构称为 topology(拓扑),由 stream(数据流), spout(数据流的生成者), bolt(运算)组成。Storm 的核心数据结构是 tuple。 tuple是 包 含 了 一 个 或 者 多 个 键 值 对 的 列 表,Stream 是 由 无 限 制 的 tuple 组 成 的 序 列。原创 2017-09-15 12:16:57 · 18525 阅读 · 9 评论 -
最详细的Storm入门教程(一)
Storm简介,Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。Storm框架主要由7部分组成Topology:一个实时应用的计算任务被打包作为Topology发布,这同Hadoop的MapReduce任务相似。原创 2017-09-15 11:39:44 · 37613 阅读 · 1 评论