大数据架构师该做到的

本文详细探讨了大数据架构师所需具备的各项技能,包括业务理解、数据解读、工具利用、落地执行、行业关注和技术能力等。此外,还强调了个人素质、团队建设和人生智慧的重要性。内容涵盖从时间管理到平台建设,再到数据安全和质量保障的全方位知识,为成为优秀的大数据架构师提供了全面指导。
摘要由CSDN通过智能技术生成

大数据架构师该做到的

https://www.processon.com/view/5c3e0543e4b0db2e59364112?fromnew=1#map

软实力

六:个人素质

1.体系化建设

快速了解一个体系

渠道

专业图书

技术官网

github

processon 里的推荐功能

技术博客

知乎

体系报告网站(参考 数据获取-外部数据-数据报告)

各种行业平台网站

谷歌百度

找朋友聊

加微信QQ群

记录整理

找个工具记录最散漫的疯狂的阅读与吸取

最好用表格来划分横向维度和纵向维度

消除杂音

刨除过程中一些过时的资料或者概念

尽量找原版的设计与理解

快速形成自己的理解

聚合

分类

排序

深入

系统计划

修正策略

发现方向不对了要懂得立即止损

投资视角看公司

商业模式

完整的产品、服务和信息流体系,不完全决定着盈利模式但是衡量盈利模式的基础

简单易懂一句话说明白的模式就是好模式

在产业上下游关系所处的位置

定价权在哪里

企业和客户关系的好坏

盈利模式

探求企业利润来源、生产过程以及产出,对企业经营要素进行价值识别和管理 关注持续力

团队

关注公司的团队架构,工作任务如何进行分工、分组和协调合作 。关注CXO

专一性

创新性

管理者优势

用户来源

关注在特定的公司下他们是如何获客的,获客的效果与方法是否可以持续健康的保持优势

现金流

公司对于内部价值的挖掘和在商业上的资金变现能力

成本结构

成本结构

决定因素

成本产业优化

变现能力

路径依赖

公司内部对主营业务的依赖性,对于新业务拓展的阻碍。在快速调整方向时能动性的高低

烧钱速度

竞争对手

赛道内竞争对手的强弱与个数,竞争对手的资方背景。竞争对手对红海的竞争性与蓝海的开拓性

(赛道)行业特性

垂直行业内的一些特殊关注点和可能发现的价值挖掘点,也是可能构建护城河的点

价值流失

价值守护的能力,包括资产数据 用户,针对于流失的方法策略是否有意识和具体的动作

护城河

抵御竞争者的保护措施

财务效率

边际成本

回报率

品牌效应

天花板

公司所在的行业是否已经进入饱和状态,是否供过于求

关注行业或者需求拐点

关注小行业的大公司

关注新旧势力平衡关系

关注面对天花板公司采取的策略

2.业务破局

了解业务

老板 高管 经理

对钱感兴趣的人肯定对数据感兴趣(财务三张表)

资产负债表

利润表

现金流量表

投其所好

多渠道的了解老板画像

试探数据价值的关注度

换位思考

从他们的角度去考虑他们遇到的困难,不解和所做的决定

不要被他们的思维固化(在其位谋其政)影响你对于数据价值的思考

全面的体系 重要的分级

全面的体系化建设(基于对行业 业务 数据 的宽泛认知) 不赘述

永远要记住摸清主线

按照重要程度(看势)做事情的分级

观察对方的底线(长期)

技术 产品 运营

技术体系初步印象

前端(ios android pc tv) 涉及到埋点日志事情

后端(微服务 链路 数据库) 涉及到业务数据入库和日志收集

掌握全局(局部)数据库

先全面后局部的感觉下数据库设计(如果有ER图提供最好)

感觉下量级与增速

深入了解产品的规划

找到契合点 不要越界

数据价值为主 外层的展现为辅

产品方向的数据价值多数来自C端 所以 推荐 广告 用户画像等为主 不同的行业考虑下特性应用(O2O IOT 新零售 AI的落地应用)

拿出诚意才会得到配合

站在开发者角度去尽量减轻他们的负担

日志与埋点的配合

业务数据入库配合

底层运维支持配合

技术层面的分享带给别人更多理解相关技术的机会

是否需要数据产品经理

涉及到产品规划和业务赋能的最好有数据产品对接

关于数据报表分析的最好让数据分析人员进入对接一线

销售 业务 财务

良好的沟通从兴趣开始

数据价值来源于解决B端面临问题

是否能提供有价值的数据让业务跑得更快

能否提供销售更直接的客户服务数据

财务的事情佛系对待

合适的机会跟他们一起开会,反复强调的内容里面就有重点和痛点

多花时间研究他们的工作流程

流程最能体现价值(优化 提速 转化 效率)

接触工作流程中可以更深刻的理解业务

关键指标一定会有所提及(不懂找资料学习再沟通) 绕不过的钱

记录关键指标 自己先琢磨在找懂的人沟通

遇到不分享的可以先想办法解决他的一些问题,无论大小,展现诚意。记住自己的目标

分析痛点

将痛点归类(部门 角色 数据源 数据价值)

归类后痛点间的关联关系找主线

能解决的痛点才是痛点

缩小范围解决头部需求反手解决次类需求

痛点案例

基础数据指标与总体和各部门的KPI跟踪

流量广告投放优化问题

潜在用户挖掘与运营转化问题

用户深度运营模型问题

用户流量扩张和用户粘性问题

羊毛党风控问题【成本优化】

如何快速成交问题【效率转化】

多单率,交叉消费,多场景消费问题

竞品商家数据的融合

数据和用户流失和丢失问题

专注行动

象限法(重要紧急四象限)

优先处理 重要且紧急 紧急不重要的

阶段性的处理重要不紧急的(这种事情要记录在本本上)

行动前的影响与价值预估

可能对其他部门或人造成的工作加重减轻与正负面影响

此行动能得到的可能价值(对需求方 相关人 团队 自己)

可拆解的任务才能行动

行动计划保证在一个可控范围内(人员 时间 资源 )

任务的串并行尝试

人员维度的安排

时间维度的安排

行动中的修正与反馈

寻找一个反馈对象(最好是需求方)

修正来源于对结果的不可控(保证损失最小)

拿到结果一定要说话(不要当哑巴 付出得到回报天经地义)

打算说给谁听

准备好PPT(参见玩转keynote)

时间地点

3.数据解读

考虑受众

想要说给谁听是重中之重

了解对方的工作特性用类比方式的去阐述数据

实事求是 轻易不下结论

全局意识

局部

⼤数据架构师应该做到的 ---- ---- 关于软实⼒部分同步会更新场景落地 ---- ---- ---- 技能图 ⼤数据架构师该掌握的技能 主要分为两块 与 ⼀.平台建设 ⼆.数据搜集 三.数据价值 四.数据安全 五.质量保障 六.个⼈素质 七.技术能⼒ ⼋.产品与运营思维 九.团队建设管理能⼒ ⼗.⼈⽣开悟之路 硬能⼒ ⼀:平台建设 1.⾏业平台 1)⼤平台 亚马逊云 阿⾥云 腾讯云 ⽹易云 华为云 2)⼩平台 国云 国双 青云 勤思 3)专业⼯具平台 4)APP分析平台 2.技术选型 1) 2) 3) 4) 3.平台架构 1)HDP Core(平台核⼼也是Hadoop core) HDFS(存储) MapReduce(批处理) Yarn(基础资源调度) 负责集群资源的统⼀管理和调度 单节点资源管理和使⽤ 应⽤程序管理 对任务运⾏环境的抽象 ⽀持运⾏长应⽤程序和短应⽤程序 ⽀持docker fpga 期待更细粒度的资源控制 对⽐Mesos Oozie(任务调度编排) 平台调度的基础保障 hadoop 各种任务的使⽤与调度 对⽐ Azkaban Airflow Slider(调度⽀持 新版已经集成yarn) 2)Enterpise Data Warehouse(企业数据仓库) Pig(基础脚本服务) ⽤类sql语⾔保证mr执⾏顺畅 pig latin 的执⾏环境 Hive(数据仓库存储) 基础数据仓库(ods gdm dw app dim) 基础ETL的运⾏实例 OLAP的数据存储(kylin) 各种数据的hive外表⽤于查询 对⽐impala Druid(adhoc⽅案 实时多维查询和分析) 已处理数⼗亿事件和TB级数据 实时查询分析 ⾼可⽤、⾼容错、⾼性能 交互式聚合和快速探究⼤量数据 为OLAP⼯作流的探索性分析⽽构建,⽀持各种过滤、聚合和查询 对⽐ drill mdrill 等 Tez(简化增强hive) Sqoop(数据导⼊导出⼯具) 3)Data sclence(数据科学) Spark(内存通⽤并⾏计算) 推荐相关 数据清洗 特征抽取 预测相关 对⽐ flink storm flink Spark sql(结构化数据处理) Spark streaming(spark流式处理) Zeppelin(界⾯分析挖掘⼯具) 基于R和python的单机界⾯使⽤⼯具(分析挖掘) 基于spark kafka 的界⾯操作⼯具 基于预测数据的使⽤与展现 ⽀持pandas numpy ⽀持R ⽀持hive hbase spark sparksql sparkstreaming ⽀持keras matplotlib pysql 4)Operational data store(操作KV存储) Hbase(kv数据存储) Phoenix(hbase 类sql查询) 5)Securlty governance(安全治理) Knox(鉴权⼯具) 数据的权限鉴权通道 平台跟外部的出⼊⼝ Ranger(权限管理⼯具) 架构下各组件的权限管理 记录操作⽇志到solr Atlas(元数据溯源与数据治理⼯具) ⼤数据平台下各种操作的元数据记录 数据打标签(对于维度 指标 ETL等) 可查询hive storm spark sqoop oozie nifi 元数据,可⾃定义实现⾃⼰的需要查看和维护的⼯具 数据流转流程的图像化展现 元数据操作记录与各种信息查询 6)Stream procressing(流式计算) 6)Stream procressing(流式计算) Storm(实时数据处理分析) Kafka(分布式发布订阅消息系统) 拖放可视化设计,开发,部署和管理流式数据分析应⽤程序 进⾏事件关联,上下⽂衔接,复杂模式匹配,分析聚合以及创建警报/通知 MiNiFi(边缘数据处理) 数据产⽣的源头收集和处理数据 通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信 可以数据溯源(Data Provenance) 可以集中管理和下发Agents java agent c++ agent 7)Operations(平台运维⼯具) Ambari(⼤数据平台管理⼯具) Ambari Metrics(监控平台各类服务及主机的运⾏情况) Ambari Infra Zookeeper(基础分布式保证⼯具) Solr(搜索应⽤ 操作⽇志存储) 8)Data operation platform(数据操作平台) NiFi(数据 ETL 数据流处理) ⽇志清洗 业务数据⼊库 基础数据(mysql binlog业务库 )ETL 部分外部数据 ⾃定义数据接⼊⽅式 ⾃定义数据流程处理 数据输出出⼝ NiFi Registry(NiFi版本管理⼯具) N
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值