企业数据湖
qihoo233
这个作者很懒,什么都没留下…
展开
-
2020-10-12【学习笔记】【企业数据湖】九、基于Apache Hadoop存储数据(4)
七、Hadoop用于近实时应用虽然Hadoop生态系统中,Flume可以提供基于流的数据处理,但是Hadoop仍然需要大量定义数据处理。SparkStreaming是一种更为成熟的近实时数据处理框架,它与hadoop协同工作。按照微批处理的方式,提供了比Flume更为强大的功能。因为HDFS是一个顺序文件系统,所以文件的随机访问是一个比较大的挑战。为了解决HDFS随机访问的问题,HBase应运而生了。虽然Hbase支持随机访问但是实际上是面向键值对的。八、Hadoop的部署模式Stand原创 2020-10-12 22:15:47 · 169 阅读 · 1 评论 -
2020-10-11【学习笔记】【企业数据湖】九、基于Apache Hadoop存储数据(3)
四、Hadoop生态系统除了核心组件外,hadoop还包括了许多构建在核心组件之上的工具和库,统称为Hadoop生态系统Hadoop生态系统中的组件可以按照其功能进行分类,:数据访问/处理组件(Apache Pig、Hive)数据存储组件(Hbase)监控、管理和协调组件(Zookeeper,Oozie,Ambari)数据集成组件(sqoop,Flume)五、Hadoop发行版CDH(Cloudera Data Platform) HDP(Hortonwork Data P原创 2020-10-11 21:51:37 · 142 阅读 · 0 评论 -
2020-10-09【学习笔记】【企业数据湖】九、基于Apache Hadoop存储数据(2)
二、为什么使用Hadoop我们选择使用Hadoop存储数据的原因如下: Hadoop可以轻松地处理大量结构化、半结构化数据。 实施成本低,因为他可以使用普通商用硬件并根据需求伸缩 Hadoop拥有一个处于不断增长状态的社区 Hadoop自身的库在构建时充分考虑了可用性,不依赖于底层硬件 灵活的处理各种类型的数据 Hadoop具有比较高的实用性 Hadoop天生具有云化的属性 Hadoop天然具有健壮性和容错性 Hadoop拥有强大的计算能力 Hadoop拥有很高的运算速度 Hado原创 2020-10-09 22:09:21 · 172 阅读 · 1 评论 -
2020-10-07【学习笔记】【企业数据湖】九、基于Apache Hadoop存储数据(1)
一、数据湖背景中的数据存储和Lambda批处理层1、数据存储和Lambda批处理层存储层应该能够处理以下内容: 支持各种查询分析工具 不同模式下的多种类型的数据 不同格式的数据 不同规模的需求 采用各种数据压缩技术保持持久化的效率 不同的数据处理速度 视情况而定,提供不同的查询机制和语言支持2、数据存储和Lambda批处理层--技术路线图3、什么是apache Hadoopapache hadoop是一种计算框架,在该框架中计算机集群可以进行分布式运算,同时也可以存储大量原创 2020-10-08 23:15:50 · 133 阅读 · 0 评论 -
2020-10-07【学习笔记】【企业数据湖】八、基于Apache Flink处理数据(3)
四、Flink的APIFlink中的基本操作可以用简单的术语进行表述Flink连接到数据源,然后执行业务逻辑相关操作最后将结果输出到sinkFlink可以处理两种形式的数据(实时,批量)所以其有两种apiDataStream API:实时数据流分析,JAVA和scala语言可以调用DataSet API:批量数据处理,Java,scala,python可以调用该api1、DataStreamAPI范例:首先获取StreamExecutionEnvironment对象原创 2020-10-07 22:37:44 · 87 阅读 · 0 评论 -
2020-10-06【学习笔记】【企业数据湖】八、基于Apache Flink处理数据(2)
三、Flink的工作原理1、Flink架构Flink架构的关键是三个重要组件的协同工作Client(客户端):代码解析,类型抽取,代码优化,图构建,传输任务至jobmanager,取回结果job manager(作业管理器):任务调度,checkpoint,任务追踪,收集维护元数据。task manager(任务管理器):任务在此执行2、flink架构的核心原则向用户屏蔽了大多数内部运行机制细节 api与实际执行逻辑解耦 声明式编程 无需或需要较少的调试 统一的流式处理模原创 2020-10-06 20:34:50 · 109 阅读 · 0 评论 -
2020-10-05【学习笔记】【企业数据湖】八、基于Apache Flink处理数据(1)
一、数据湖背景中的数据摄取层数据摄取层是数据湖的一个核心功能层,如果需要处理来自不同应用的流式和批量数据,则该层至关重要。1、数据摄取层数据摄取指的是获取或导入数据用于中间处理或存储到数据库的过程。数据摄取层的一些特性:能以简单、快捷的方式处理输入的数据 能处理多种不同的数据流 能够处理多种数据结构 集成了多种持久化存储机制 支持多种传输协议 能与多种不同的系统或技术连接2、数据摄取层技术路线3、什么是apache Flinkapache Flink 是一个开源的原创 2020-10-05 23:15:35 · 112 阅读 · 0 评论 -
2020-10-04【学习笔记】【企业数据湖】七、基于Apache Kafka构建消息层(3)
六、生产者和消费者的可靠性分布式系统中,各个组件都有可能出现故障。所有代码设计上会考虑到以无缝方式处理这些故障。kafka的一个容错机制是维护消息的副本。消息被复制在所谓的分区中,kafka主动选择一个分区作为主分区。其他的从分区复制主分区。主分区还会维护一个同步副本的列表,以确保能维护理想的副本来处理故障。七、kafka的安全性kafka的安全性具体如下:无加密和认证 ssl:加密并认证 SASL:kerberos认证机制 SSL+SASL:用SSL做加密,用SASL做认证原创 2020-10-04 22:33:40 · 80 阅读 · 0 评论 -
2020-10-03【学习笔记】【企业数据湖】七、基于Apache Kafka构建消息层(2)
三、Kafka的架构1、kafka架构的核心原则LinkedIn的工程团队开发了Kafka,其背后的动因是,为了创建一个统一的消息传输平台,以适应来自各个应用程序的实时数据传输。kafka在构思和设计上有着其核心的架构准则:追求性能极致 尽可能简化不必要的功能来实现性能优化 分布式架构 容错性 消息持久化存储 尽肯能剥离冗余的功能 将部分功能交给消费者应用管理,不提供ack机制 可扩展性 高吞吐量 实时处理这些消息并实时输出处理后的消息 低延迟传输2、数据流的生命周期原创 2020-10-03 22:33:33 · 85 阅读 · 0 评论 -
2020-10-02【学习笔记】【企业数据湖】七、基于Apache Kafka构建消息层(1)
一、数据湖背景中的消息层1、消息层数据湖中的消息层应该具有以下功能: 该层的一项核心功能是对源头和终端进行解耦 能够处理来自应用服务器节点每秒几百MB的高速信息流 能够处理TB甚至PB级数据 能够低延迟、高吞吐的处理消息 能够保证信息按照时间有序传输向多个消费者传递相同消息的能力。 能够对运营统计数据进行分析,聚合来自不同数据源的数据并分析 借助廉价硬件实现高性能 能够实现最低程度的数据增加与转换2、技术路线图3、什么是Apache Kafka详情见wiki百科,Apa原创 2020-10-02 22:53:01 · 184 阅读 · 0 评论 -
2020-10-01【学习笔记】【企业数据湖】六、基于Apache Flume的流式数据获取(3)
十一、Flume事务管理数据从客户端或者上一个sink进入当前的agent会触发一个事务,这种事务称为sourcetx。当事件在channel中持久化并收到确认信息后。sourcetx宣告结束。在agent的范围内,第二个事务是sinktx,该事务开始于sink轮询数据。十二、Flume的其他组件1、channelProcessor(持久化channel数据)2、interceptor(过滤)3、channel selector(与interceptor类似)4、sinkGrou原创 2020-10-01 22:57:10 · 122 阅读 · 0 评论 -
2020-09-30【学习笔记】【企业数据湖】六、基于Apache Flume的流式数据获取(2)
四、flume架构一个简单的flume架构包含三个重要的组件,他们协同工作,并且以实时的方式将源数据传输到目的地。source:用于监听流式数据或事件,将其写入到channel channel:一个存储数据的流水线,数据存储在其中直到被其他组件取走 sink:用于从channal中获取事件并进一步处理或者持久化到数据存储。失败则重试还有一些众所周知的结构分布式数据流水线(上面结构可一个个的连接起来) 扇出(一个source将数据传给多个channel) 扇入(多source写入一个ch原创 2020-09-30 22:58:53 · 145 阅读 · 0 评论 -
2020-09-29【学习笔记】【企业数据湖】六、基于Apache Flume的流式数据获取(1)
一、数据获取1、什么是流数据各种web和应用服务器生成的日志数据 企业网站的用户行为数据 客户在各种社交网络平台上产生的大量数据 来自各种传感器的数据2、批量数据和流式数据批处理数据获取用sqoop,流式数据获取 用flume3、流式数据获取技术路线图4、什么是flumeflume本意指通过修建渠道。利用渠道的能力从山上运输木材。这里指从数据源传输大量数据到目的地二、为什么使用flume1、flume简史flume是由cloudera公司开发的,专门用于.原创 2020-09-29 23:01:45 · 154 阅读 · 0 评论 -
2020-09-28【学习笔记】【企业数据湖】五、基于Apache Sqoop的批量数据获取(2)
六、sqoop运行范例暂不介绍,请参考相关博客七、适合使用sqoop的场景HDFS作为主要的数据存储手段,用于存储来自于各不同源系统的数据。对于RDBMS与Hadoop数据传输,例如常规的批处理,或近似批处理,比较适合从MongoDB,Cassandra之类的NoSQL数据库传输数据到Hadoop文件系统中拥有大量依赖关系数据库的应用软件的企业,sqoop是数据传输的最佳选择Hadoop是一个存储海量数据的事实上的标准。如果需要考虑传输性能时,适合使用sqoopsqoop原创 2020-09-28 23:00:35 · 125 阅读 · 0 评论 -
2020-09-27【学习笔记】【企业数据湖】五、基于Apache Sqoop的批量数据获取
一、数据湖背景中的数据获取1、数据获取层2、批量数据获取--技术路线图二、为什么使用sqoopsqoop是一款非常常用的用于向ApacheHadoop传输数据的工具1、sqoop简史最早由cloudera开发维护,分为1.X,2.X版本,区别很大2、sqoop的优势支持多种结构化数据 sqoop可以将etl中某些环境剔除,转移到hadoop中执行 sqoop可以以并行的方式传输数据 帮助从主机中读取序列文件,并集成至目标系统 又有可扩展机制,可以构建或拦截多种 c原创 2020-09-27 23:20:28 · 731 阅读 · 0 评论 -
2020-09-26【学习笔记】【企业数据湖】四、数据湖中的Lambda应用
一、Hadoop发行版本Hadoop主要有Cloudera、Hortonworks、MapR是商业发行版,Apache Hadoop是去开源版本。各发行版本都各具特色,如何选择也没有一个统一的标准。只能根据其特性,按需选择。二、影响企业大数据技术栈选择的因素1、技术能力2、是否易于部署和维护3、集成准备三、批处理层与数据处理1、namenode服务器2、secondarynamenode服务器3、yarn4、数据存储节点5、快速处理层6、flume用于数据原创 2020-09-26 22:38:29 · 106 阅读 · 0 评论 -
2020-09-25【学习笔记】【企业数据湖】三、Lambda架构:一种数据湖实现模式(3)
七、Lambda架构的劣势由于包含不同的层,Lambda架构被认为是复杂的。由于批处理层和快速处理层都是分布的,且实现机制不同,维护和支持起来相当 困难要构架基于Lambda架构的数据湖,必须掌握大量的技术用开源的技术来实现Lambda架构并部署在云环境中并不容易Lambda所用到的组件还都不太成熟,还在快速的迭代当中持续集成/持续交付成为了一种平常的要求,但是Lambda中持续集成/.持续交付的工具也不成熟系统假设可能需要大量的硬件组件相同的工作要实现两次,批处理一次,流处原创 2020-09-25 23:35:23 · 118 阅读 · 0 评论 -
2020-09-24【学习笔记】【企业数据湖】三、Lambda架构:一种数据湖实现模式(2)
四、Lambda架构的组件在数据湖背景中,Lambda机构的组件只构成了其中的一个功能模块,即Lambda层。Lambda层的主要模块:批处理层 快速处理层 服务层1、批处理层尽可能按数据最原始的格式来存储数据。由于数据不存在遗漏或转换,因此,可以在不同的阶段从不同的维度衍生出许多不同的用例。在批处理中主数据以不可变状态存储。可以被访问也可以被用于各种分析。数据是不可变的,不可被更新和删除。2、快速处理层也称为实时层,是为满足实时分析的需要。批处理层之间是比较耗时的,由于用户需原创 2020-09-24 22:36:23 · 143 阅读 · 0 评论 -
2020-09-23【学习笔记】【企业数据湖】三、Lambda架构:一种数据湖实现模式(1)
一 、什么是Lambda架构Lambda具有的要素:一套模式和标准。Lambda机构定义了一套面向大数据应用的模式和准则 。更重要的是,它允许同时查询历史数据和实时增长的数据。并且获得期望的分析视图。 处理历史数据和实时数据 技术无关和通用性。Lambda架构是一种通用的模式,完全不依赖于任何技术,而且任何技术只要能满足需求,都可以在Lambda架构中应用。 Lambda架构清楚的吧责任划分到不同的功能木块/层中。它按照层来划分职责,完美地遵循了设计模式中的关注点分离原则 领域无关。作为一种原创 2020-09-23 23:24:18 · 392 阅读 · 0 评论 -
2020-09-22【学习笔记】【企业数据湖】一、数据湖概念概览(2)
四、数据湖与数据仓库的区别虽然数据湖在很多术后被认为与数据仓库是等同的,但是实际上数据湖与数据仓库代表着企业想达到的不同目标。两者的区别如下1、数据湖可以处理所有类型的数据,数据的类型依赖于原始数据格式。数据仓库只能处理结构化数据,这些数据需要与预先定义的模型吻合。2、数据湖拥有足够的计算能力用于处理和分析所有类型的数据,而数据仓库是将结构化数据转换为多维数据,或者报表。3、数据湖往往包含更多的信息,被访问的概率更高。数据仓库存放和存储长期数据,数据可以按需访问。五、数据湖的构.原创 2020-09-22 22:30:00 · 120 阅读 · 0 评论 -
2020-09-21【学习笔记】【企业数据湖】一、数据湖概念概览(1)
一、什么是数据湖数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理分析及传输。数据湖与企业的关系数据湖可以给企业带来多种能力。例如实现数据的集中管理二、数据湖如何帮助企业实现数据治理与数据世系通过应用机器学习与人工智能技术实现商业智能预测分析,如领域特定的推荐引擎信息追踪与一致性保障根据对历史分析生成新的数据维度有一个集中式的能存储所有企业数据的数据中心,有利于实现一个针对数据传输优化的数据服务帮助组织和企业做出更多灵活的关于企业增长的决策原创 2020-09-21 23:58:28 · 1464 阅读 · 1 评论 -
2020-09-20【学习笔记】【企业数据湖】一、数据导论(2)
六、数据质量数据质量方面比较重要的属性正确性 完整性 一致性 时效性 元数据 数据世系七、企业中数据如何存放1、内联网2、互联网3、持久化存储引擎4、传统数据仓库5、文件存储八、企业现状1、传统DW2、大数据孤岛3、大量非连接应用九、企业数字化转型企业数字化转型指,应用数字化技术,从根本上影响商业和社会的方方面面十、数据湖用例启示客户细分 信息整合 增进客户关系、避免客户流失 更深入的分析等...原创 2020-09-20 23:25:38 · 79 阅读 · 0 评论 -
2020-09-19【学习笔记】【企业数据湖】一、数据导论(1)
一、探索数据数据是指一组定性或定量变量的值数据可被测量、收集、报告、分析。可以使用图形、图像和其他分析工具进行可视化。数据分三种类型:结构化数据(业务数据) 非结构化数据 (视频,图片) 半结构化数据(JSON,XML)二、什么是企业数据企业数据分三种:主数据 事务数据 分析数据三、企业数据管理企业数据管理(EDM)定义了企业数据如何存储、存储的位置、以及使用那些技术来存储和检索这类数据的一整套策略。四、大数据相关概念大数据和4V多样性(variety)原创 2020-09-19 23:39:06 · 104 阅读 · 0 评论