![](https://img-blog.csdnimg.cn/4b59814e81be4b33ba35d0d14d5ae697.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据.计算.分析
文章平均质量分 88
Spark、Hadoop、大数据相关。
知了一笑
积累、总结、用心记录。
展开
-
CDP客户数据管理平台体系化搭建
客户数据平台(Customer-Data-Platform),简称CDP;通过采集多方客户数据(主体与线索)等,从而进行精准的客户分析和人群细分,进而实现高效的客户维系和发掘以及日常营销运营。业务面上看Cdp是客户管理流程上的一个节点,技术面上看是重度偏向数据分析的一个平台。不断的完善客户主体的数据,完善相关画像分析,然后通过相关行为采集,进行精准实时的跟进,例如新客的浏览行为,老客户的点击等,都有潜在需求的可能,在Cdp系统采集到这类线索之后,迅速对客户进行沟通跟进,进行精准高效的服务。...原创 2021-11-02 08:32:00 · 1709 阅读 · 0 评论 -
数据服务基础能力之元数据管理
在多变的数据服务场景中,应用中常见如下的业务需求,通过对多种数据结构的灵活组合,快速实现业务模型构建,整体示意图如下像常用的画图工具,左边提供基础图形库,中间是画布,右边是组件的控制细节,对比到这里的逻辑如下字段面板提供业务数据结构的字段映射,和常规字段类型配置,用来支撑组合面板的表单配置。组合面板承载字段的组合管理,生成新的数据结构,根据业务场景,完成底层数据的抽取存储或者API服务生成。规则面板对组合面板上字段进行规制设定,常见涉及。...原创 2021-10-18 23:12:13 · 877 阅读 · 0 评论 -
数据管理:业务数据清洗,落地实现方案
读-洗-写入业务库持续服务;读-洗-写入档案数据资产库;业务数据清洗本质上理解起来并不难,即读取待清洗的数据源,经过清洗服务规范化处理后,再把数据放到指定的数据源,但是实际操作起来绝对叫人眼花撩到。...原创 2021-06-09 08:15:08 · 1178 阅读 · 0 评论 -
实时计算框架:Flink集群搭建与运行机制
Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。主要特性包括批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink不仅可以运行在包括YARN、Mesos、Kubernetes在内的多种资源管理框架上,还支持在裸机集群上独立部署。在启用高可用选项的情况下,它不存在单点失效问题。...原创 2021-05-09 19:34:25 · 1153 阅读 · 0 评论 -
实时计算框架:Spark集群搭建与入门案例
Spark是专为大规模数据处理而设计的,基于内存快速通用,可扩展的集群计算引擎,实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流,运算速度相比于MapReduce得到了显著的提高。原创 2021-04-26 08:32:33 · 762 阅读 · 0 评论 -
OLAP引擎:基于Presto组件进行跨数据源分析
Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节,Presto虽然具备解析SQL的能力,但它并不属于标准的数据库范畴。Presto支持在线数据查询,包括Hive,关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析,Presto主要用来处理响应时间小于1秒到几分钟的场景。...原创 2021-04-18 12:54:27 · 850 阅读 · 0 评论 -
OLAP引擎:基于Druid组件进行数据统计分析
Druid是一款基于分布式架构的OLAP引擎,支持数据写入、低延时、高性能的数据分析,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有相关的应用场景,是大数据基础架构建设中重要组件。与现在相对热门的Clickhouse引擎相比,Druid对高并发的支持相对较好和稳定,但是Clickhouse在任务队列模式中的数据查询能力十分出色,但是对高并发支持不够友好,需要做好很多服务监控和预警。...原创 2021-04-05 11:11:11 · 541 阅读 · 0 评论 -
数据调度组件:基于Azkaban协调时序任务执行
Azkaban是由Linkedin公司推出的可以管理批量工作流任务的调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban特点和优势提供功能清晰,简单易用的WebUI界面;作业配置简单,任务作业依赖关系清晰;提供可扩展的组件;基于Java语言开发,易于二次开发;...原创 2021-03-30 08:27:05 · 479 阅读 · 0 评论 -
数据搬运组件:基于Sqoop管理数据导入和导出
Sqoop是一款开源的大数据组件,主要用来在Hadoop(Hive、HBase等)与传统的数据库(mysql、postgresql、oracle等)间进行数据的传递。通常数据搬运的组件基本功能导入与导出。鉴于Sqoop是大数据技术体系的组件,所以关系型数据库导入Hadoop存储系统称为导入,反过来称为导出。Sqoop是一个命令行的组件工具,将导入或导出命令转换成mapreduce程序来实现。mapreduce中主要是对inputformat和outputformat进行定制。...原创 2021-03-15 08:41:30 · 572 阅读 · 0 评论 -
数据采集组件:Flume基础用法和Kafka集成
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;特点分布式、高可用、基于流式架构,通常用来收集、聚合、搬运不同数据源的大量日志到数据仓库。...原创 2021-03-05 09:01:42 · 1022 阅读 · 1 评论 -
基于业务和平台理解数字营销概念
数字营销模式中三个基本角色和模式广告主通过流量主把广告内容传递到受众人群。原创 2021-01-18 22:31:26 · 292 阅读 · 0 评论 -
用户画像分析与场景应用
用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,尤其在数字化营销范畴之内,核心的依赖依据就是描述用户画像的丰富标签。在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,基于标签运用用户画像的方式了解用户,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。例如上述基于最简单的用户数据可以分析出来的用户画像信息。...原创 2021-01-14 23:23:15 · 2378 阅读 · 0 评论 -
数据仓库组件:HBase集群环境搭建和应用案例
Hadoop原生的特点是解决大规模数据的离线批量处理场景,HDFS具备强大存储能力,但是并没有提供很强的数据查询机制。HBase组件则是基于HDFS文件系统之上提供类似于BigTable服务。HBase是一种分布式、可扩展、支持海量结构化数据存储的NoSQL数据库。HBase在Hadoop之上提供了类似于Bigtable的能力,基于列存储模式的而不是基于行的模式。存储数据特点非结构化或者松散的半结构化数据,存储大表自然是需要具备水平扩展的能力,基于服务集群处理海量庞大数据。...原创 2021-01-11 08:04:28 · 674 阅读 · 0 评论 -
标签管理体系之业务应用
基于标签对业务进行精准分析,从而影响运营思路和产品迭代的节奏,进而带来非常高的商业价值,但是这里需要对标签的质量进行评估,假设标签的覆盖场景非常低,而且准确度低,同样也会反向影响业务。通过在标签的使用过程分析和评估,不断优化标签的质量,形成完整的管理周期,这样才能发挥更高的业务价值。单一场景下标签能产生的价值并不高,这也是很多产品在初期不会过度考虑数据分析的一大原因,能获取到有标签含义的数据不足以产生较高的价值。...原创 2021-01-05 22:54:39 · 785 阅读 · 0 评论 -
数据仓库组件:Hive环境搭建和基础用法
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一个可以对Hadoop中的大规模存储的数据进行查询和分析存储的组件,Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行,使用成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。...原创 2021-01-04 08:01:57 · 713 阅读 · 2 评论 -
数据应用场景之标签管理体系
属性标签属性标签是描述基本特征,不需要行为产生,也不是基于规则引擎分析,例如基于用户实名认证信息,获取性别,生日,出生日期等特征。变动频率极小,且精准性较高。行为标签通过不同业务渠道埋点,捕捉用户的行为数据,基于这些数据分析,形成结果描述的标签,例如分析用户「网购平台」,得到的结果拼多多,淘宝,京东,天猫等。这些都是需要通过行为数据来判断的标签。规则标签规则下分析出来的标签,更多是基于产品或者运营角度来看,例如电商平台需要对会员等级超过5级,且近7天活跃的会员发一次福利,这里就涉及两个标签应用。...原创 2020-12-30 23:51:47 · 5897 阅读 · 0 评论 -
数据全景洞察概念简介
智能数字时代,数据不论形态、格式和类型,已经迅速成为企业最有战略意义的资产;数据资产已经成为了可以形成业务洞察及优势的战略资源,数据的体量、多样性和复杂性也正以指数级增长。就像其他重要的企业资产,数据需要适当的管理和治理水平,以确保它的潜在价值得到认识和发挥作用。DMP数据管理平台是DataManagementPlatform简称,是把分散的多方数据进行整合纳入统一的技术平台,并对这些数据进行标准化建模和细致分析,让用户可以把这些细分结果推向现有的互动营销环境里的平台。核心作用如下精准营销投放。...原创 2020-12-26 22:07:02 · 655 阅读 · 0 评论 -
业务场景下数据采集机制和策略
做面向C端用户的产品,十分依赖用户数据的收集,下面都见过这样一张数据分析图,通过链路上各个环节的数据采集,分析对比出曝光产品的交易量通过对商品的浏览-点击-交易页面-支付购买等,分析产品的交易场景,这里是从大的业务方面观察数据的链路,实际上在分析的时候要考虑很多细节问题。...原创 2020-12-15 23:28:38 · 1328 阅读 · 1 评论 -
Hadoop框架:Yarn基本结构和运行原理
Hadoop三大核心组件分布式文件系统HDFS、分布式计算框架MapReduce,分布式集群资源调度框架Yarn。Yarn并不是在Hadoop初期就有的,是在Hadoop升级发展才诞生的,典型的Master-Slave架构。Yarn包括两个主要进程资源管理器Resource-Manager,节点管理器Node-Manager。...原创 2020-12-13 16:45:23 · 332 阅读 · 0 评论 -
数据管理流程,基础入门简介
数据在现在互联网的行业中可以说是最核心的话题,数据的价值已经被称为资产了,大部分的互联网应用都会源源不断的产生各种数据,如何管理和使用这些数据,让这些看似平常的数据产生更大的价值,一直是热门的探索领域。比如常见的风控、营销、推广等各种业务,都需要依赖大量的用户行为数据作为依赖,才能精准的对相关流程做出分析判断。数据管理是一项复杂而且庞大的工程,需要付出的时间和成本非常高,通常的说法就是对用户有效的数据进行采集,存储,分析,组建业务模型,二次业务应用,以此让数据发挥更大的价值。...原创 2020-12-08 21:57:19 · 1326 阅读 · 0 评论 -
Hadoop框架:MapReduce基本原理和入门案例
序列化将内存中对象转换为二进制的字节序列,可以通过输出流持久化存储或者网络传输;反序列化接收输入字节流或者读取磁盘持久化的数据,加载到内存的对象过程;Hadoop序列化相关接口Writable实现的序列化机制、Comparable管理Key的排序问题;...原创 2020-11-22 22:25:56 · 446 阅读 · 0 评论 -
Hadoop框架:HDFS高可用环境配置
在单点或者少数节点故障的情况下,集群还可以正常的提供服务,HDFS高可用机制可以通过配置Active/Standby两个NameNodes节点实现在集群中对NameNode的热备来消除单节点故障问题,如果单个节点出现故障,可通过该方式将NameNode快速切换到另外一个节点上。...原创 2020-10-27 22:52:26 · 1379 阅读 · 1 评论 -
Hadoop框架:DataNode工作机制详解
通过hdfs-site.xml配置文件,修改超时时长和心跳,其中中的heartbeat.recheck.interval的单位为毫秒,dfs.heartbeat.interval的单位为秒。原创 2020-10-20 14:28:09 · 1031 阅读 · 1 评论 -
Hadoop框架:NameNode工作机制详解
NameNode运行时元数据需要存放在内存中,同时在磁盘中备份元数据的fsImage,当元数据有更新或者添加元数据时,修改内存中的元数据会把操作记录追加到edits日志文件中,这里不包括查询操作。如果NameNode节点发生故障,可以通过FsImage和Edits的合并,重新把元数据加载到内存中,此时SecondaryNameNode专门用于fsImage和edits的合并。...原创 2020-10-12 10:11:28 · 1017 阅读 · 0 评论 -
Hadoop框架:HDFS读写机制与API详解
第一个副本和client在一个节点里,如果client不在集群范围内,则这第一个node是随机选取的;第二个副本和第一个副本放在相同的机架上随机选择;第三个副本在不同的机架上随机选择,减少了机架间的写流量,通常可以提高写性能,机架故障的概率远小于节点故障的概率,因此该策略不会影响数据的稳定性。HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据,基于机架感知,NameNode就可以画出上图所示的datanode网络拓扑图。Hadoop2.7的文档说明。...原创 2020-09-30 10:35:11 · 487 阅读 · 0 评论 -
Hadoop框架:HDFS简介与Shell管理命令
大数据领域一直面对的两大核心模块数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容错能力,稳定而且可靠。HDFS(Hadoop-Distributed-File-System),它是一个分布式文件系统,用于存储文件,通过目录树来定位文件;设计初衷是管理数成百上千的服务器与磁盘,让应用程序像使用普通文件系统一样存储大规模的文件数据,适合一次写入,多次读出的场景,且不支持文件的修改,适合做数据分析。...原创 2020-09-29 15:54:07 · 290 阅读 · 0 评论 -
Hadoop框架:集群模式下分布式环境搭建
准备三台Centos7服务,基础环境从伪分布式环境克隆过来。原创 2020-09-27 11:20:57 · 217 阅读 · 0 评论 -
Hadoop框架:单服务下伪分布式集群搭建
格式化NameNode,会产生新的clusterID,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要停止相关进程,删除data数据和log日志,然后再格式化NameNode。如果不指定为yarn,那么MapReduce程序就只会在本地运行而非在整个集群中运行。MapReduce的JobHistoryServer,这是一个独立的服务,可通过webUI展示历史作业日志。文件结构和上述一样,配置hdfs副本个数,这里伪环境,配置1个即可。...原创 2020-09-16 17:03:24 · 373 阅读 · 0 评论 -
大数据简介,技术体系分类整理
注意这里基于Hadoop2.X版本描述。后续如果没有特别说明,都是2.7版本。Hadoop是一个由Apache基金会所开发的分布式系统基础架构;提供海量的数据存储能力,和分析计算能力;作为Apache的顶级项目,包含众多子项目是一个生态圈;...原创 2020-09-15 09:04:58 · 2189 阅读 · 0 评论 -
Spark家族:Win10系统下搭建Scala开发环境
一、Scala环境基础Scala对Java相关的类,接口进行了包装,所以依赖Jvm环境。Jdk 1.8 scala 依赖scala 2.11 安装版本idea 2017.3 开发工具二、配置Scala解压版1)注意路径无空格和中文2)配置环境变量添加到path目录%SCALA_HOME%\bin3)检测是否安装配置成功,没错就是这么简单。3、配置Idea开发......原创 2019-05-17 20:31:25 · 2115 阅读 · 0 评论