大数据
文章平均质量分 74
果汁华
这个作者很懒,什么都没留下…
展开
-
Flink 架构——状态管理
flink状态管理转载 2022-07-25 20:14:37 · 397 阅读 · 0 评论 -
Google 引爆大数据时代的三篇论文-《GFS》、《BigTable》、《MapReduce》
大数据起源于-谷歌,于2003年起发布一系列论文(大数据三驾马车):1. 《The Google File System 》2. 《MapReduce: Simplified Data Processing onLarge Clusters》3.《Bigtable: A Distributed Storage System for Structured Data》1 、GFSGFS 是一个大型的分布式文件系统,为 Google 大数据处理系统提供海量存储,并且与 Ma...原创 2022-02-08 00:20:40 · 7875 阅读 · 0 评论 -
Kafka -- 关于高水位和Leader Epoch的讨论
什么是高水位?在 Kafka 的世界中,水位的概念有一点不同。Kafka 的水位不是时间戳,更与时间无关。它是和位置信息绑定的,具体来说,它是用消息位移来表征的。用来区分已消费和未消费数据。 (Kafka 中也有低水位(Low Watermark),它是与 Kafka 删除消息相关联的概念)高水位的作用在 Kafka 中,高水位的作用主要有 2 个。1、定义消息可见性,即用来标识分区下的哪些消息是可以被消费者消费的。2、帮助 Kafka 完成副本同...原创 2022-01-11 19:49:36 · 1723 阅读 · 0 评论 -
Kafka -- 消费组到底是什么?
消费者组,即 Consumer Group,用一句话概括就是:Consumer Group 是 Kafka 提供的可扩展且具有容错性的消费者机制。既然是一个组,那么组内必然可以有多个消费者或消费者实例(Consumer Instance),它们共享一个公共的 ID,这个 ID 被称为 Group ID。组内的所有消费者协调在一起来消费订阅主题(Subscribed Topics)的所有分区(Partition)。当然,每个分区只能由同一个消费者组内的一个 Consumer 实例来消费。个人认为,理解 C..原创 2022-01-11 17:06:19 · 2340 阅读 · 0 评论 -
Kafka学习 -- 基础术语篇
一、为什么要用Kafka ?首先,Kafka 是什么呢?用一句话概括一下:Apache Kafka 是一款开源的消息引擎系统。根据维基百科的定义,消息引擎系统是一组规范。企业利用这组规范在不同系统之间传递语义准确的消息,实现松耦合的异步式数据传递。简单的说:系统 A 发送消息给消息引擎系统,系统 B 从消息引擎系统中读取 A 发送的消息。最基础的消息引擎就是做这点事的!不论是上面哪个版本,它们都提到了两个重要的事实:消息引擎传输的对象是消息...原创 2022-01-11 16:51:51 · 217 阅读 · 0 评论 -
用户画像应用
一、经营分析1、商品分析分析购买爆品的用户在其他维度的特性(例如:年龄、性别、地域等等),以便进行精准营销,可以使用透视分析功能,来分析该用户群在各个维度的特征。2、用户分析 借助用户画像可以了解平台用户的性别、年龄、职业等各维度特征的用户量分布特征。3、渠道分析 根据增长黑客理论(AAARR)模型,将产品的营收路径分为激活 - 》 注册- 》留存-》下单-》传播。 在画像应用中,可以分析目标人群的渠道来源,使得渠道投...原创 2021-12-18 00:20:51 · 386 阅读 · 0 评论 -
面向业务的数据资产建设方法论:标签类目体系
摘要:标签类目体系方法论是一种将数据资产按照树形结构组织的方法,根目录为对象,枝干分支为类目,叶/花末端为标签。资产结果分为资产清单和资产实体两大部分,他们可以通过服务管理工具快速配置成可供业务使用的数据服务结果,以实现数据资产价值。一、基础结构1、根目录2、枝干分支3、叶、花末端二、连接赋能标签类目体系是基于“对象”的标签分类刻画,“对象”是类目体系的奇点。1、实体树之间通过关系树关联2、关系树是一种能量赋能3、业务使用是养分供给三、生长优化1、完整规划,由原创 2021-12-17 23:58:42 · 430 阅读 · 0 评论 -
面向业务的数据资产建设方法论:标签类目体系
摘要:标签类目体系方法论是一种将数据资产按照树状结构组织的方法, 根目录为对象, 枝干分支为类目, 叶/花末端为标签。资产结果分为资产清单和资产实体两 大部分, 它们可以通过服务管理工具快速配置成可供业务使用的数据服务结果, 以实现数据资产价值。引言:在数据中台概念中, 数据资产位于核心位置。广义上, 企业拥有所有权的数据资源都是其数据资产。但是这个广义定义过于宽泛,因此需要更多关注其精准定义——企业所拥有的能够带来经济价值的数据资源. 数据 资产一般都有较好的组织形式来保障完成“看-选-用-治..原创 2021-10-15 23:32:48 · 1980 阅读 · 0 评论 -
打造员工能力(组织能力杨三角系列三)
一、找对人:制胜团队的必要条件美国NBA赛事是篮球迷们绝不会错过的比赛,各支球队都有自己的明星球员,但是如果一支球队清一 色都由最佳球星组成梦幻队的话,这支球队是否一定能赢得冠军? 答案是未必。球队的实力不仅来自于球员 高超的个人能力,很大程度上还要依靠大家能力的互补和默契配合,例如,有的善于投篮得分,有的善于 抢篮板,有的善于防守。球队的胜利靠的是整个团队的战斗力。要在中国市场乃至全球市场制胜,企业需要打造如低成本、质量、速度、服务、创新或定制化等方面 的组织...原创 2021-10-05 14:06:53 · 1608 阅读 · 0 评论 -
数据指标管理
什么是指标?指标是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。数据指标构成如下:数据指标体系是对业务指标体系的汇总,用来明确指标的口径、维度、指标的取数逻辑等信息。它的价值体现在:全面支撑决策 指导业务运营 驱动用户增长 统一统计口径数据指标的主要类型:因此在数据指标管理系统中新建的指标就是如图的三类,其中派⽣指标⾮常常⻅,派⽣指标= 时间周期+统计粒度+修饰词+原⼦指标。对数据指标有⼀个基本概念了解和分类情况后,我们看下如何设计..原创 2021-07-16 23:52:24 · 2373 阅读 · 0 评论 -
客户数据平台(CDP)是什么?
Customer Data Platform (CDP)。 所有人都想从最基本的开始做起,了解客户是谁。这似乎很简单, 但客户与业务互动渠道的激增使得这个简单的目标变得极其复杂。 每个业务部门依赖的是客户数据的不同方面,他们都有自己的运用场景。 销售部门依赖于CRM、售后部门主要看客服系统、市场营销部门关心微信平台、数据分析团队使用各类数据分析工具。 这些工具各自产生新的、孤立的、片面的客户数据, 却无法快速同步, 甚至团队之间还怀疑对方数据是否正确。...原创 2021-07-16 23:03:56 · 8011 阅读 · 1 评论 -
HDFS的写入流程及副本复制策略
步骤补充 1.向namenode发送请求上传文件 然后在namenode里会进行检查是否存在该文件,权限问题 通过则给一个输出流对象 2.建立好pipeline管道后,客户端先把文件写入缓存中,达到一个块的大小时,会与第一个datanode建立连接开始流式的传输数据,这个datanode会一小部分一小部分的(4k)接受数据然后写入本地仓库,同时把这些数据传输到第二个datanode上;第二个datanode同样完成上面的操作,再传到第三个datanode ; 3. 整个上传完成...转载 2021-07-08 15:28:15 · 1061 阅读 · 0 评论 -
kudu从0到1
背景:在KUDU之前,大数据主要以两种方式存储: 静态数据:以HDFS引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。 动态数据:以HBase、Cassandra作为存储引擎,适用于大数据随机读写场景。这类存储的局限性是批量读取吞吐量远不如HDFS,不适用于批量数据分析的场景。 从上面分析可知,这两种数据再存储方式上完全不同,进而导致使用场景完全不同,但在真实场景中,边界可能没有那么清晰,面对既需要随机读写、又需要批量分析的大数据...原创 2021-06-13 23:23:57 · 1138 阅读 · 2 评论 -
网络、端口连通性检查(telnet、nc和tcpdump)
最近有一个需求打通两个集群的网络,使用telnet、nc和tcpdump测试端口的联通性。1)telnet大家最cahng原创 2021-06-02 16:11:52 · 1339 阅读 · 0 评论 -
DataGrip 连接 presto数据库
最近项目中有用到presto数据库了,为了方便的操作presto,想要通过安装插件的方式用DataGrip连接presto(毕竟DataGrip这位老朋友用起来是如此顺手)。1、下载presto jcdc连接jar包(https://prestodb.io/download.html)2、打开老朋友(DataGrip),添加自定义的 Driver选择刚才下载的JAR文件:选择你的Class、定义你的source名称:添加好了之后,我们就可以添加datasou...原创 2021-05-30 08:55:57 · 970 阅读 · 0 评论 -
记一次datax hdfswriter的踩坑记(上传文件到hdfs的坑)
写这个文档的初衷是方便后人在使用datax同步hdfs的时候及时脱坑,毕竟本人花了不少时间一步一步才排查出来的,在google、github、stackoverflow目前没有完整排坑文档(大部分只是到设置dfs.client.use.datanode.hostname这一步)。 背景是需要把数据从mysql同步到hdfs中,采用的工具是datax。1、拿到myql和hdfs的连接信息,写好job config文件,运行datax。直接报错:Caused by: org....原创 2021-05-30 08:30:12 · 4109 阅读 · 0 评论 -
大数据名词及基本原理
介绍maxcompute、hadoop、hive、hbase、spark、flink、adb、clickhouse、presto、hawq、greenplum、dremio、kudu、kafka等大数据领域相关技术、工具。一、MaxCompute:MaxCompute以表的形式存储数据,支持多种数据类型版本说明(1.0, 2.0, Hive),并对外提供SQL查询功能。您可以将MaxCompute作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。二、hadoopHad.原创 2021-04-23 20:24:54 · 1409 阅读 · 0 评论 -
Apache Parquet ----大数据通用列式存储文件
新项目中引进Dremio作为计算引擎,做了一些研究和开发。记录下。首先简单介绍下一.Dremio架构Dremio是基于Apache calcite、Apache arrow和Apache parquet3个开源框架构建,结构其核心引擎Sabot,形成这款DaaS(Data-as-a-Service)数据即服务平台;整体体验风格与其公司开源的Apache Drill非常接近。Ⅰ).架构图这里涉及技术比较多,我们今天先介绍下 Apache parquet文件。二...原创 2020-08-17 11:11:42 · 1599 阅读 · 0 评论