(小白)数据产品经理的修行

大数据技术

**
大数据技术是数据产品经理需要具备的基本技能之一,下面的分享介绍希望能帮到需 有需求的同学。
本文来自【开课吧–数据产品经理分享课堂】

前言

对海量数据进行存储、计算、分析、挖掘处理需要依赖一系列的大数据技术,今天分享的内容会对大数据技术知识体系从
1、基础技术
2、数据采集
3、数据传输
4、数据组织集成
5、数据应用
6、数据治理
六个方面进行阐述说明,并列出目前业界主流的相关框架、系统、数据库、工具等。
在这里插入图片描述

part1:大数据基础技术

1.Hadoop大数据架构

提到大数据基础知识,必须要说下Hadoop的架构。Hadoop是用java语言实现开源软件架构,是一个开发和运行处理大规模数据的软件平台,允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。

狭义上,Hadoop是Apache的一款开源架构,核心组件如下:

  • HDFS(分布式文件系统):解决海量数据存储。
  • YARN(作业调度和集群资源管理的框架):解决资源任务调度。
  • MapReduce(分布式运算编程框架):解决海量数据计算。

广义上,Hadoop是一个生态圈,补充组件如下:

  • Hive:基于Hadoop的分布式数据仓库,提供基于SQL的查询数据操作。
  • HBASE:基于Hadoop的分布式海量数据库,是一种nosql数据库。
  • Flume:日志数据采集框架。

Hadoop集群具体来说包括2个集群:HDFS集群和YARN集群,两者**逻辑上分离,但物理上常在一起。

  • HDFS集群:负责海量数据的存储,在集群中的角色主要有:NameNode、DataNode、SecondaryNameNode
  • YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有:resourcemanager、nodemanager
  • 在这里插入图片描述

2.大数据结构与常用算法

对于大数据或者大规模的分布式系统来说,如何能够高效快速地进行海量数据的处理非常关键,而采用合适的数据结构和算法对于达成此目标至关重要。
在这里插入图片描述

part2:数据采集技术

大数据的采集处于大数据生命周期的第一个环节,从数据采集的类型看不仅仅要包括基础的结构化数据和半结构化数据,也包括非结构化数据音频、视频、图像等。常见的数据采集方式包括系统日志采集、网络数据采集、设备数据采集。

系统日志采集:主要是对数据库、系统、服务器等运行状态,行为事件等数据抓取。数据获取方式是埋点,即对浏览器(PC)打点、无线客户端、服务端打点。技术方面常用的数据采集框架包括Chukwa、Splunk Forwarder、Flume、Fluentd、Logstash、Scribe。

网络数据采集:网络数据采集是指通过爬虫或者公开 API 等方式从网站获取数据。数据的内容可以是文本、视屏、图片数据等。常用的爬虫技术包括Nutch、Heritrix、Scrapy、WebCollector等。

设备数据采集:设备数据采集主要是指针对一些物理设备的数据采集,常见的如传感器,探针。

在这里插入图片描述

part3:数据传输技术

经过采集的数据通过数据通道被传输存储。集中存储的数据源的数据发生变化也能通过数据通道尽快地通知对数据敏感的相应应用或者系统构建,使得它们能够尽快的捕获数据的变化。数据传输包含如下相关技术:消息队列、数据同步、数据订阅、序列化。

消息队列:消息队列是涉及大规模分布式系统时候经常使用的中间件产品,主要解决日志搜集,应用耦合,异步消息,流量削锋等问题实现高性能,高可用,可伸缩和最终一致性架构,Kafka是消息队列的一个典型代表。

数据同步:在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为 ODS (Operational Data Store) 数据。在互联网企业中,常见的 ODS 数据有业务日志数据(Log)和业务数据(DB)两类。对于业务 DB 数据来说,从 MySQL 等关系型数据库的业务数据进行采集,然后导入到数据仓库中,是进一个重要环节。如何准确、高效地把 MySQL 数据同步到数据仓库中?一般常用的解决方案是批量取数并 Load。数据同步解决各个数据源之间稳定高效的数据同步功能。
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql和Oracle等)间进行数据的传递。
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

数据订阅:数据订阅功能旨在帮助用户获取实时增量数据,用户能够根据自身业务需求自由消费增量数据,例如实现缓存更新策略、业务异步解耦、异构数据源数据实时同步及含复杂 ETL 的数据实时同步等多种业务场景。

序列化:序列化 (Serialization)是将对象的状态信息转换为可以存储或传输的形式的过程。数据序列化用于模块通讯时,将对象序列化为通信流,高效的传输到另一个模块,并提供反序列化还原数据。对于大数据传输场景下序列化的性能、大小也直接影响了数据传输的性能。

在这里插入图片描述

part4:数据组织集成

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

1.数据存储:

大数据存储面向海量、异构、大规模结构化和非结构化等数据提供高性能高可靠的存储以及访问能力,通过优化存储基础设施,提供高性能、高吞吐率、大容量的数据存储方案,解决巨大数据量的存储问题,同时为大规模数据分析、计算、加工提供支撑。
在这里插入图片描述
基础理论:

  • NoSQL数据库三大基础理论:CAP理论、BASE理论和最终一致性理论
  • 关系型数据库:ACID事务理论
    数据库类型:
    (1)关系型数据库
    (2)NoSQL数据库:以下4个为典型类型
    *键值数据库:就是一堆的键值对KV,比如Redis。
    *列族数据库:HBASE根据列族进行垂直划分,根据行键进行水平划分
    *文档数据库:本质上也可以看作键值数据库,它的值是文档而非标量
    *图数据库:以图结构方式存储相关信息
    (3)NewSQL数据库:NewSQL是指这样一类新式的关系型数据库管理系统,针对OLTP(读-写)工作负载,追求提供和NoSQL系统相同的扩展性能,且仍然保持ACID和SQL等特性。简单来讲,newSQL 就是在传统关系型数据库上集成了 noSQL 强大的可扩展性。

2.数据计算:

大数据计算主要完成海量数据并行处理、分析挖掘等面向业务需求。大数据计算通过将海量的数据分片,多个计算节点并行化执行,实现高性能、高可靠的数据处理,同时提供分布式任务管理和调度的支撑。针对不同的数据处理需求,主要有大规模批量处理、流式计算、图计算、即席分析等多种计算。
在这里插入图片描述

3.数据分析

分析挖掘是通过算法从大数据中提炼出具有价值的信息和知识的过程。以机器和算法为主导,充分发挥机器在数据分析挖掘中的效率和可靠性的优势,提供对结构化数据以及文本、图像、视频和语言等非结构数据分析挖掘。数据分析挖掘包括一些通用的数据挖掘方法,也包括深度学习,机器学习,统计分析等。
在这里插入图片描述

part5:数据应用

大数据应用是整个大数据生命周期中最重要的一个环节之一。随着大数据应用越来越广泛,应用的行业也越来越低,每天都可以看到大数据的一些新奇的应用,从而帮助人们从中获取到真正有用的价值。下面和大家介绍下大数据应用方面相关技术。

1.数据可视化:人类的眼睛是一对高带宽巨量视觉信号输入的并行处理器,拥有超强模式识别能力,配合超过 50% 功能用于视觉感知相关处理的大脑,使得人类通过视觉获取数据比任何其他形式的获取方式更好,大量视觉信息在潜意识阶段就被处理完成,人类对图像的处理速度比文本快 6 万倍。数据可视化正是利用人类天生技能来增强数据处理和组织效率。
在这里插入图片描述

part6:数据治理

过去的十年,我们经历了数据量高速膨胀的时期,这些海量的、分散在不同角落的异构数据导致了数据资源的价值低、应用难度大等问题。如何将海量数据应用于决策、营销和产品创新?如何利用大数据平台优化产品、流程和服务?如何利用大数据更科学地制定公共政策、实现社会治理?所有这一切,都离不开大数据治理。在大数据战略从顶层设计到底层实现的“落地”过程中,治理是基础,技术是承载,分析是手段,应用是目的。这个时候数据治理体系建设可能不是一个选择,而是唯一的出路。
在这里插入图片描述

1.元数据管理

元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。
在这里插入图片描述

2.主数据管理

主数据管理是通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。主数据管理涉及主数据的所有参与方,如用户、应用程序、业务流程等,创建并维护企业核心数据一致性、完整性、关联性和正确性。主数据是企业内外被广泛应用和共享的数据,被誉为是企业数据资产中的“黄金数据”,主数据管理是撬动企业数字化转型的支点,是企业数据治理最核心的部分。

3.数据标准管理

数据标准适用于业务数据描述、信息管理及应用系统开发,可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。数据标准需要不断的补充完善、更新优化和积累,以便更好的支撑业务的开发和系统的集成。

4.数据质量管理

建立数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。

5.数据安全管理

目前多数人都知道数据安全问题十分重要,但在现实中,数据安全却常常被忽视,只有出现了数据安全问题甚至事故时,人们才认识到要为数据安全做点什么了。数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。企业需要在安全、效率之间找到平衡点。
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值