网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
-
永洪
-
APP分析平台
-
mix panel
-
growing IO
-
神策
-
诸葛 IO
-
2.技术选型(维护成本)
-
CDH
-
HDP+HDF
-
MAPR
-
Transwarp
-
cloudera hortonworks 新平台 CDP
-
3.平台架构(只谈用法)
-
HDP Core(平台核心)
-
Hadoop(基础存储计算)
-
HDFS分布式数文件存储
-
MR批处理
-
Yarn(基础资源调度)
-
负责集群资源的统一管理和调度
-
单节点资源管理和使用
-
应用程序管理
-
对任务运行环境的抽象
-
支持运行长应用程序和短应用程序
-
支持docker fpga
-
对比Mesos
-
Oozie(任务调度编排)
-
平台调度的基础保障
-
hadop 各种任务的使用与调度
-
对比 Azkaban Airflow
-
Slider(调度支持 新版已经集成yarn)
-
Enterpise Data Warehouse(企业数据仓库)
-
Pig(基础脚本服务)
-
用类sql语言保证mr执行顺畅
-
pig latin 的执行环境
-
Hive(数据仓库存储)
-
基础数据仓库(ods gdm dw app dim)
-
基础ETL的运行实例
-
OLAP的数据存储(kylin)
-
各种数据的hive外表用于查询
-
对比impala
-
Druid(adhoc方案 实时多维查询和分析)
-
已处理数十亿事件和TB级数据
-
实时查询分析 高可用、高容错、高性能
-
交互式聚合和快速探究大量数据
-
为OLAP工作流的探索性分析而构建,支持各种过滤、聚合和查询
-
对比 drill es mdrill 等
-
Tez(简化增强hive)
-
简化和优化hive执行局于流程
-
缩小hive 执行时间
-
Sqoop(数据导入导出工具)
-
定时数据导入
-
定时数据导出
-
对比 datax kettle
-
Data sclence(数据科学)
-
Spark(内存通用并行计算)
-
推荐相关
-
数据清洗
-
特征抽取
-
预测相关
-
flink
-
对静态数据进行批处理操作
-
对数据流进行流处理操作
-
对结构化数据进行查询操作,将结构化数据抽象成关系表
-
Flink ML,Flink的机器学习库
-
Gelly,Flink的图计算库
-
Spark sql(结构化数据处理) Spark streaming(spark流式处理)
-
实时数据计算
-
数据指标监控报警
-
Zeppelin(界面分析挖掘工具)
-
基于R和python的单机界面使用工具(分析挖掘)
-
基于spark kafka 的界面操作工具
-
基于预测数据的使用与展现
-
Operational data store(操作KV存储)
-
Hbase(kv数据存储)
-
binlog业务数据存储
-
日志数据存储
-
基础数据查询
-
Phoenix(hbase 类sql查询)
-
基于hbase的数据查询
-
基于habse数据的表建立
-
Securlty governance(安全治理)
-
Knox(鉴权工具)
-
数据的权限鉴权通道
-
平台跟外部的出入口
-
Ranger(权限管理工具)
-
架构下各组件的权限管理
-
记录操作日志到solr
-
对比 Sentry
-
Kerberos(认证)
-
Atlas(元数据溯源与数据治理工具)
-
大数据平台下各种操作的元数据记录
-
数据打标签(对于维度 指标 ETL等)
-
可查询hive storm spark sqoop oozie nifi 元数据,可自定义实现自己的需要查看和维护的工具
-
数据流转流程的图像化展现
-
元数据操作记录与各种信息查询
-
Stream procressing(流式计算)
-
Storm(实时数据处理分析)暂不用 spark streaming 替代
-
Kafka(分布式发布订阅消息系统)
-
mysql的binlog的消息队列
-
日志的消息队列
-
基于实时分析的消息队列
-
基于其他特定场景的消息队列
-
MiNiFi(边缘数据处理)
-
数据产生的源头收集和处理数据
-
通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信
-
可以数据溯源(Data Provenance)
-
可以集中管理和下发Agents
-
java agent
-
c++ agent
-
Streaming Analytics Manager (流式数据处理界面工具)
-
拖放可视化设计,开发,部署和管理流式数据分析应用程序
-
进行事件关联,上下文衔接,复杂模式匹配,分析聚合以及创建警报/通知
-
Operations(平台运维工具)
-
Ambari(大数据平台管理工具)
-
管理部署各个大数据平台组件(改动 不在维护的除外)
-
平台数据监控收集与展示
-
管理各个组件版本
-
子主题
-
Ambari Metrics(监控平台各类服务及主机的运行情况)
-
Ambari Infra
-
对比 Ganglia、Open-falcon、Prometheus、Zabbix
-
Zookeeper(基础分布式保证工具)
-
整体的消息一致性可靠保障
-
协调分布式资源
-
Solr(搜索应用 操作日志存储)
-
hadoop操作日志存储查询
-
ranger操作日志存储查询
-
audits数据存储查询
-
Data operation platform(数据操作平台)
-
NiFi(数据 ETL 数据流处理)
-
日志清洗 业务数据入库
-
基础数据(mysql binlog业务库 )ETL
-
部分外部数据
-
自定义数据接入方式
-
自定义数据流程处理
-
数据输出出口
-
对比 StreamSets Data Collector
-
NiFi Registry(NiFi版本管理工具)
-
NIFI的版本记录回溯
-
NIFI Schema Registry 来统一文件定义(类配置中心)
-
配合SwaggerAPI数据定义
-
Hue(大数据交互界面平台)
-
数据查询操作入口
-
调度配置和使用入口
-
数据上传入口
-
ETL操作入口
-
Data visualization(数据可视化工具)
-
Superset(数据分析界面工具)
-
挖掘分析的界面展现
-
特定场景下(finebi满足不了的) 图表展现
-
FineBI(BI界面分析工具)
-
报表数据可视化
-
部分OLAP分析
-
Fine Index
-
FIne Direct
-
现场数据实时展示
-
(Cboard)
-
数据导出邮件配置入口
-
finebi 外的数据展示
-
Metabase
-
后续直接用来对接运营产品的数据交互工具
-
支持问题模式,支持对数据进行标记
-
对比 Saiku Tableau Qlikview
-
自主开发
-
Echarts
-
inMap
-
datav
-
OnlineAnalytical processing(OLAP解决方案 adhoc)
-
Kylin(MOLAP方案)
-
维度间交叉分析
-
构建过程基于hive集群不需要单独搭建
-
数据存储于hbase集群,主要消耗磁盘
-
Elasticsearch
-
横向可扩展,高可用 分片机制
-
单集群,索引缓存在内存中,单节点易造成内存溢出
-
不支持复杂sql,无法实现关联统计分析
-
Presto(MPP-SQL交互式查询引擎)
-
多数据源(Hive,Hbase,RDBMS)
-
支持标准SQL 不支持UDF
-
对表的连接以及 group by操作有比较严格的大小限制
-
对集群结点的内存和CPU消耗较大
-
HAWQ(SQL on Hadoop)
-
符合ANSI SQL规范并且支持SQL 92、99、2003 OLAP
-
包含关联子查询、窗口函数、汇总与数据库、广泛的标量函数与聚合函数的功能
-
TPC-DS针对具有各种操作要求和复杂性的查询定义了99个模板(例如,点对点、报告、迭代、OLAP、数据挖掘等)
-
HAWQ使用Apache Ambari作为管理和配置的基础
-
PostgreSQL (单机ORDBMS)
-
天生就是为扩展而生的,可以在PG中用Python、C、Perl、TCL、PLSQL等来扩展
-
强大 SQL 支持能力和非常丰富的统计函数和统计语法支持
-
hash join、merge join、nestloop join的支持方面做的较好
-
GreenPlum(MPP架构升级版PostgreSQL)
-
基于PostgreSQL
-
采用两阶段提交和全局事务管理机制来保证集群上分布式事务的一致性
-
建立在实例级别上的并行计算,可在一次SQL请求中利用到每个节点上的多个CPU CORE的计算能力
-
解决大问题而设计的并行计算技术,而不是大量的小问题的高并发请求
-
HashData(SQL on Cloud)
-
托管于云平台,用户不再需要为基础设施投资,不再需要调优运维,仅为您使用的计算资源买单
-
分布式架构,根据负载快速扩充计算能力,实现高性能计算,满足用户交互式查询的需求。
-
云数据仓库,针对云平台订制设计。利用云计算的优势,实现数据仓库的高可用、快速恢复、弹性扩容
-
ClickHouse
-
列式存储数据库,数据压缩
-
分布式并行计算,把单机性能压榨到极限
-
可以不依赖hadoop平台
-
关系型、支持SQL
-
TiDB(没研究 美团用的多)
-
Graph database(图数据库)
-
Janus Graph(图数据库引擎)
-
图的序列化, 图的数据模型和高效的查询
-
依赖hadoop来做图的统计和批量图操作
-
为数据存储,索引和客户端访问实现了粗粒度的模块接口
-
模块架构能和和许多存储,索引,客户端技术集成. 可以简便的扩展新的功能
-
Dgraph(事务性的分布式图形数据库)
-
解决企业在数据库增长超过单个服务器时面临的一些问题而构建
-
可扩展的,分布式的,低延迟的图数据库
-
超过 TB 的结构数据里,为用户提供足够低延迟的实时查询
-
Neo4j(NoSQL图数据库)
-
ArangoDB(NoSQL数据库)
-
原生多模型数据库
-
可以将逻辑功能加入V8的 js framework Foxx™中 并可以完全访问所有功能
-
可扩展性,JOINS, 复杂事务处理
-
4.资源申请
-
基准测试
-
资源预估(基于业务存量与增量)
-
理解各组件的CPU IO 内存 硬盘 带宽的特性
-
硬件知识(RAID 存储加速 存储接口等 )
-
资源预判
-
CPU
-
内存
-
带宽
-
千兆
-
万兆
-
硬盘
-
RAID 0 1 10 5
-
SSD HDD FDD SATA
-
转速
-
数据增量
-
5.日常维护
-
bigdata devops
-
服务优先级
-
高
-
中高
-
中
-
底
-
服务耦合关系图
-
服务高可用
-
目前已经高可用的服务和组件
-
需要后面做到高可用的服务和组件
-
不需要高可用的组件和服务
-
平台规划
-
现有集群
-
硬件拓扑图
-
硬件资源列表
-
服务配置图
-
目前软件使用列表
-
软件拓扑依赖关系图
-
运维平台管理关系图
-
未来一年集群
-
新增业务场景和工具的调研
-
资源利用率核查 资源瓶颈判断
-
服务与资源保障
-
平台 安装 升级 降级 维护
-
平台监控报警
-
服务监控报警
-
灾难演练
-
测试环境
-
操作规范
-
权限授权(跳板机)
-
瓶颈判断
-
基于需求的平台二次开发
-
组件版本关注与升级
-
各种疑难杂症修复
-
环境维护(正式 测试)
-
6.技术调研
-
大数据相关
-
机器学习
-
IOT相关
-
边缘计算
-
二:数据搜集
-
第一方数据
-
公司内结构化数据
-
增量
-
全量
-
拉链
-
binlog
-
接口
-
kafka对接
-
公司内非结构化数据
-
小程序
-
微信小程序
-
头条系小程序
-
支付宝小程序
-
视频图像
-
图像帧提取
-
图片压缩转制
-
excel
-
格式化规约
-
约定上传时间方式版本
-
文本
-
NLP
-
格式化关键信息
-
存储源文件但废弃无用信息
-
第二方数据
-
日志
-
接口
-
内部埋点
-
后端埋点方案
-
无埋点方案
-
url规约系统
-
用户级别
-
版本跟踪
-
页面级别
-
块级别
-
事件级别
-
搜索
-
露出 曝光 展示 滑动 用户 访问 下载 装机 等统计方式
-
运营使用的外部工具
-
各种广告平台
-
广点通
-
达摩盘
-
知乎DSP
-
今日头条系
-
百度系
-
微博营销工具
-
…
-
各种流量平台
-
各种统计分析平台
-
销售使用的外部工具
-
商家查询平台
-
启信宝
-
企查查
-
天眼查
-
赤狐
-
CRM工具
-
外部数据(非公司IT支撑)
-
爬虫平台开发利用推进
-
API对接
-
WIFI 探针类
-
分类
-
WIFI
-
BLE
-
Zigbee
-
蓝牙
-
算法
-
信号强弱
-
围栏
-
人脸视频类
-
faceid 设计
-
图片帧
-
第三方数据
-
第三方埋点
-
GA
-
百度
-
友盟
-
其他
-
外部数据
-
数据报告
-
199IT(100+)
-
艾瑞(100+)
-
IT橘子
-
国家互联网中心
-
恒大研究院
-
亿欧智库
-
易观数据
-
中国通信研究院
-
腾讯数据实验室
-
阿里研究中心
-
商业合作
-
数据交换
-
专项购买
-
流量互补
-
竞品数据
-
分析竞品列表
-
关联品牌
-
关联人物
-
关联商家
-
热点主题
-
讨论度
-
新闻动态频率
-
正负面情绪
-
风险信息 商业环境
-
爬虫获取商家 商品 评论等业务数据
-
从一些公开平台获取统计数据
-
新媒体
-
微信公众号
-
微博
-
知乎
-
行业数据
-
大盘数据
-
行业动态数据
-
统计数据
-
国家统计局
-
国外统计局
-
专业部门统计数据
-
数据资讯
-
大行业
-
本行业
-
其他
-
三:数据价值
-
1.数据清洗
-
日志数据清洗(UDF spark straming )
-
业务数据清洗
-
维度数据抽取
-
数据缺失与修复
-
NLP语义化
-
图片识别等
-
2.数据仓库
-
分层
-
Operational Data Store(ODS) 原始操作数据
-
General Data Mart(GDM)清洗后通用数据
-
Data WareHouse (DW)数据集市
-
用户
-
行为
-
商家
-
商品
-
…
-
Dimension Data(DIM)维度数据
-
规范
-
权限规范
-
ETL规范
-
调度规范
-
ETL
-
元数据(Atlas查看和标记)
-
业务元数据
-
ETL元数据
-
数据元数据
-
3.统计报表
-
分类
-
维度
-
指标
-
数据可视化
-
5.数据报告
-
抓重点业务或关键路径
-
体系化叙述
-
重点数据解释
-
编写参考 玩转keynote
-
4.商业智能
-
关键指标与转化
-
博弈分析法(找到博弈方,找到博弈方的冲突与矛盾)
-
利益方
-
行动
-
信息获取
-
损失
-
均衡点
-
优化
-
策略
-
收益
-
企业价值评估法(找到利益保持或者增长的关键点或者业务流程量化KPI) 上图参考案例
-
行业参考(标准行业的指标体系)
-
保证少而精 结果导向 可衡量 一致性
-
影响业务决策
-
商家风控
-
用户风控
-
影响运营决策
-
AARRR模型
-
RFM模型
-
运营增强工具
-
用户分层理论
-
影响老板决策
-
全局跟踪报表
-
关键节点转化数据跟踪
-
市场大盘的搜集与预估
-
竞争对手信息挖掘
-
效率周期的提醒和关注
-
业务预测与告警
-
6.业务赋能
-
数据预警
-
数据预测
-
数据查询
-
对运营支持的数据工具
-
对业务销售支持的数据工具
-
销售人员的常用工具数据化支撑
-
业务节点的数据跟进
-
7.数据产品
-
(私域数据)CDP&DMP
-
收集企业私域数据
-
建立私域数据之间相同顾客/用户/受众之间的映射匹配关系 .构建以顾客/用户受众(人)为核心的数据结构(即ID+人的标签,或称ID+人的属 性的数据结构)
-
基于以上数据结构,建立个体画像或人群画像
-
DMP/CDP只针对营销和客户运营的场景,它们可以与企业的渠道管理、备货、物流以及供应链甚至生产环节相联通,并根据需要为这些环节提供数据,但它们并不负责收集和处理这些环节的数据。
-
2B产品
-
行业标准与数据共享
-
垂直行业指数项目
-
针对商家端产品
-
商家快速获取数据
-
商家获取精准数据
-
商家数据增值服务
-
2C产品
-
结合产品规划
-
用户信息(关系)打通
-
结合产品2C的优惠券 通知 推送等
-
推荐
-
搜索
-
风控
-
舆情
-
用户画像
-
反作弊
-
8.场景探索
-
IOT场景
-
AI场景探索
-
数据交换场景
-
规则漏洞-业务场景漏洞-效率优化
-
9.企业数据化成熟度进化路径
-
四:数据安全
-
1.企业数据分级
-
普通
-
基础业务数据
-
用户产生的非免敏感数据
-
敏感
-
用户信息
-
商家信息
-
机密
-
合同
-
推广
-
活动
-
订单
-
绝密
-
财务
-
战略
-
融资
-
2.数据隐私保护
-
公众数据
-
Personal Identifiable Information(PII级别)
-
用户唯一标识(因公司而异)
-
核心业务数据订单 优惠券 等(掩码)
-
3.平台权限控制
-
数据导出权限控制
-
账号跟踪与密钥更换
-
统一LDAP账号建设
-
数据使用申请
-
大数据产品系 - 账号统一登录平台
-
4.数据流程规范
-
需求对接规范
-
数据订正规范
-
提取数据规范
-
业务数据变更修正
-
五:质量保障
-
1.平台与资源保障
-
平台监控
-
服务监控
-
调度监控
-
计算监控
-
2.数据质量
-
日志数据质量保障
-
开发埋点跟踪与工单系统
-
需求流程梳理与制定
-
加入环节测试,统一APP PCWAP 小程序的开发SDK
-
业务数据质量保障
-
业务一致性
-
数据主动被动监测与检测系统开发
-
领域统一主键
-
业务数据表备注变 字段 新增 删除 表新增等的跟踪通知
-
数据仓库与计算逻辑质量保障
-
抽样检测
-
数据准确性跟踪
-
数据仓库调度监控与计算逻辑review
-
3.统一口径
-
专人负责业务领域模型
-
数据仓库主题域宽表建设
-
需求对接明确责任人和需求对接人
-
4.故障跟进
-
钉钉报警群的建设与跟进
-
值班制度
-
软实力
-
六:个人素质
-
1.体系化建设
-
快速了解一个体系
-
渠道
-
专业图书
-
技术官网
-
github
-
processon 里的推荐功能
-
超链接 技术博客
-
知乎
-
体系报告网站(参考 数据获取-外部数据-数据报告)
-
各种行业平台网站
-
谷歌百度
-
找朋友聊
-
加微信QQ群
-
记录整理
-
找个工具记录最散漫的疯狂的阅读与吸取
-
最好用表格来划分横向维度和纵向维度
-
消除杂音
-
刨除过程中一些过时的资料或者概念
-
尽量找原版的设计与理解
-
快速形成自己的理解
-
聚合
-
分类
-
排序
-
深入
-
系统计划
-
修正策略
-
发现方向不对了要懂得立即止损
-
投资视角看公司
-
商业模式
-
完整的产品、服务和信息流体系,不完全决定着盈利模式但是衡量盈利模式的基础
-
简单易懂一句话说明白的模式就是好模式
-
在产业上下游关系所处的位置
-
定价权在哪里
-
企业和客户关系的好坏
-
盈利模式
-
探求企业利润来源、生产过程以及产出,对企业经营要素进行价值识别和管理 关注持续力
-
团队
-
关注公司的团队架构,工作任务如何进行分工、分组和协调合作 。关注CXO
-
专一性
-
创新性
-
管理者优势
-
用户来源
-
关注在特定的公司下他们是如何获客的,获客的效果与方法是否可以持续健康的保持优势
-
现金流
-
公司对于内部价值的挖掘和在商业上的资金变现能力
-
成本结构
-
成本结构
-
决定因素
-
成本产业优化
-
变现能力
-
路径依赖
-
公司内部对主营业务的依赖性,对于新业务拓展的阻碍。在快速调整方向时能动性的高低
-
烧钱速度
-
竞争对手
-
赛道内竞争对手的强弱与个数,竞争对手的资方背景。竞争对手对红海的竞争性与蓝海的开拓性
-
(赛道)行业特性
-
垂直行业内的一些特殊关注点和可能发现的价值挖掘点,也是可能构建护城河的点
-
价值流失
-
价值守护的能力,包括资产数据 用户,针对于流失的方法策略是否有意识和具体的动作
-
护城河
-
抵御竞争者的保护措施
-
财务效率
-
边际成本
-
回报率
-
品牌效应
-
天花板
-
公司所在的行业是否已经进入饱和状态,是否供过于求
-
关注行业或者需求拐点
-
关注小行业的大公司
-
关注新旧势力平衡关系
-
关注面对天花板公司采取的策略
-
2.业务破局
-
了解业务
-
老板 高管 经理
-
对钱感兴趣的人肯定对数据感兴趣(财务三张表)
-
资产负债表
-
利润表
-
现金流量表
-
投其所好
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
-
完整的产品、服务和信息流体系,不完全决定着盈利模式但是衡量盈利模式的基础
-
简单易懂一句话说明白的模式就是好模式
-
在产业上下游关系所处的位置
-
定价权在哪里
-
企业和客户关系的好坏
-
盈利模式
-
探求企业利润来源、生产过程以及产出,对企业经营要素进行价值识别和管理 关注持续力
-
团队
-
关注公司的团队架构,工作任务如何进行分工、分组和协调合作 。关注CXO
-
专一性
-
创新性
-
管理者优势
-
用户来源
-
关注在特定的公司下他们是如何获客的,获客的效果与方法是否可以持续健康的保持优势
-
现金流
-
公司对于内部价值的挖掘和在商业上的资金变现能力
-
成本结构
-
成本结构
-
决定因素
-
成本产业优化
-
变现能力
-
路径依赖
-
公司内部对主营业务的依赖性,对于新业务拓展的阻碍。在快速调整方向时能动性的高低
-
烧钱速度
-
竞争对手
-
赛道内竞争对手的强弱与个数,竞争对手的资方背景。竞争对手对红海的竞争性与蓝海的开拓性
-
(赛道)行业特性
-
垂直行业内的一些特殊关注点和可能发现的价值挖掘点,也是可能构建护城河的点
-
价值流失
-
价值守护的能力,包括资产数据 用户,针对于流失的方法策略是否有意识和具体的动作
-
护城河
-
抵御竞争者的保护措施
-
财务效率
-
边际成本
-
回报率
-
品牌效应
-
天花板
-
公司所在的行业是否已经进入饱和状态,是否供过于求
-
关注行业或者需求拐点
-
关注小行业的大公司
-
关注新旧势力平衡关系
-
关注面对天花板公司采取的策略
-
2.业务破局
-
了解业务
-
老板 高管 经理
-
对钱感兴趣的人肯定对数据感兴趣(财务三张表)
-
资产负债表
-
利润表
-
现金流量表
-
投其所好
[外链图片转存中…(img-CavlxU0t-1714869161128)]
[外链图片转存中…(img-XuGaueJL-1714869161129)]
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!