大数据
灬点点
菜鸟
展开
-
数据湖、Jcmd
一、什么是数据湖维基百科上定义,数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。二、数据湖之Delta Lake官网:https://delta.io/架构:三、delta特性简介delta底层是完全基于spark的,而且可以支持实时和离线,对于多翻译 2020-07-25 19:44:00 · 271 阅读 · 0 评论 -
Apache Beam
一、介绍:Apache Beam 实施可在任何执行引擎上运行的批处理和流数据处理作业, 提供了一套统一的 API 来处理两种数据处理模式(批和流),让我们只需要将注意力专注于数据处理的算法上,而不用再花时间去维护两种数据处理模式上的差异。二、架构:三、开源社区文档地址:https://beam.apache.org/get-started/quickstart-java/开源地址:https://github.com/apache/beam四、应用待续…...原创 2020-05-11 23:47:00 · 674 阅读 · 0 评论 -
Apache Flink API
Apache Flink APIhttp://www.imooc.com/read/64/article/1443翻译 2020-04-18 22:44:47 · 358 阅读 · 0 评论 -
Apache Spark Streaming 实战
Streamming 原理:原创 2020-04-18 21:18:29 · 322 阅读 · 0 评论 -
Doris是什么?
一、什么是DorisDoris 是一个 MPP 的 OLAP 系统,主要整合了 Google Mesa(数据模型),Apache Impala(MPP Query Engine) 和 Apache ORCFile (存储格式,编码和压缩) 的技术。...原创 2020-03-28 19:48:02 · 5677 阅读 · 0 评论 -
Kylin作用是什么?
题记:想了解Kylin、首先需要了解一下什么是OLAP、OLTP一、OLAP:( OnLine Analytical Processing )一般查询延迟在秒级或者毫秒级,可以实现交互式查询、OLAP的查询一般需要Scan大量数据,大多时候只访问部分列,聚合的需求(Sum、Count、Max、Min、排序、减等)多于明细的需求、查询原始明细数据。OLAP应用:在年底或者发布会上的大数据分析...翻译 2020-03-23 22:27:18 · 4244 阅读 · 1 评论 -
Flume采集数据利器
一、什么是FlumeApache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具。Flume 可以做离线也可以做实时分析。二、Flume架构如图所示:Agent就是Flume的一个部署实例,一个完整的Agent中包含了三个组件Source(数据的来源与方式)、Channel(数据的缓存池或者管道)、Sink(定义了数据输出的方式与...原创 2020-03-22 19:18:15 · 620 阅读 · 0 评论 -
Hive安装部署
一、环境准备Hive的安装是需要一些前置环境的,在安装Hive之前,我们需要安装Java环境,安装mysql环境,安装hadoop环境,并且保证我们的Hadoop环境是可用的。下载Hive安装包:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/下载mysql的java驱动包:也可以直接在maven搜索jar,然后下载。https://mv...翻译 2020-03-20 19:33:29 · 202 阅读 · 0 评论 -
数据隔离与数仓分层
一、数据隔离二、数据隔离方法三、数仓分层四、数仓优缺点五、数仓怎么优化分层原创 2020-03-17 11:34:47 · 1927 阅读 · 0 评论 -
Cloudera Manager平台
一、Cloudera Manager平台0、简介:通过Cloudera Manager,可以轻松管理生产中任何规模的Cloudera部署。通过直观的UI快速部署,配置和监视群集-包括滚动升级,备份和灾难恢复以及可自定义的警报。官网:https://www.cloudera.com/1、架构:2、介绍:服务端/Server:Cloudera Manager 的核心。主要用于管理 we...翻译 2020-03-15 21:07:23 · 514 阅读 · 0 评论 -
Yarn与Zookeeper(Eureka)对比
一、解决问题:YarnZookeeper(Eureka)1、可扩展性:下一代计算平台应该可以平滑地扩展到数万个节点和并发的应用。1、配置管理:统一配置文件分发并且及时让worker生效。2、可维护性:下一代计算平台应该保证集群升级与用户应用程序的完全解耦。2、 集群管理和Master选举:Master节点高可用,并且保证唯一 。3、多租户:下一代计算平台需要支...翻译 2020-03-10 23:14:19 · 732 阅读 · 0 评论 -
HBase与HDFS与RDBMS区别
HBase:HBase 是一个高可靠、高性能、面向列、可伸缩的分布式NoSQL 数据库,运行于HDFS 文件系统之上,主要用来存储非结构化和半结构化的松散数据。HBase 的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10 亿行数据和数百万列元素组成的数据表。HDFS:HDFS 本质上是一个数据文件系统,对于数据批量查询的场景有着很好的支持,但对于数据随机查询...翻译 2020-03-08 17:49:49 · 895 阅读 · 1 评论 -
Strom与Spark streamming与Flink对比
简介:实时计算引擎相对于批处理计算引擎领域选择技术方案有很多,主流的方案包含有Flink、Spark streamming、strom、Kafka、Pulsar、Beam、Gearpump、Edgent、Samza、阿里MaxCompute等等。主流实时计算引擎总体对比:技术Spark StreamingStormFlink架构依赖spark生态,主从模式,每个Ba...原创 2020-03-08 15:36:05 · 1932 阅读 · 0 评论 -
数据库与数据仓库区别
数据仓库:数据仓库是将多个数据源的数据进行ETL处理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构与非结构化的数据环境。E(抽取)T(转换)L(加载)对数据处理的基本流程数据仓库与数据库区别:1、数据库式面向事物的设计2、数据仓库是面向主题设计3、数据库一般存储在线交易等数据4、数据仓库存储的一般是历史或者实时数据流数据5、数据库设计是避免冗余、采用三范式的规则设计...翻译 2020-03-06 22:07:00 · 577 阅读 · 0 评论 -
支持在线大数据SQL查询平台开源项目
一、XQL/IQL基于SparkSQL实现了一套即席查询服务,具有如下特性:优雅的交互方式,支持多种数据源/接收器,多数据源混算spark常驻服务,基于zookeeper的引擎自动发现负载均衡,多个引擎随机执行多会话模式实现并行查询采用spark的FAIR调度,避免资源被大任务独占基于spark的动态资源分配,在无任务的情况下不会占用执行者资源支持集群和客户端模式启动基于结构化流...原创 2020-03-02 22:23:19 · 3134 阅读 · 0 评论 -
Lambda架构与Kappa架构对比
首先大数据处理系统需要几个特性:1、容错性和鲁棒性:对大规模分布式系统来说,机器是不可靠的,可能会当机,但是系统需要是健壮、行为正确的,即使是遇到机器错误。2、低延时:很多应用对于读和写操作的延时要求非常高,要求对更新和查询的响应是低延时的。3、横向扩容:当数据量/负载增大时,可扩展性的系统通过增加更多的机器资源来维持性能。4、通用性:系统需要能够适应广泛的应用,包括金融领域、社交网络、电...翻译 2020-02-23 19:33:09 · 3327 阅读 · 0 评论 -
大数据druid安装部署
一、介绍Apache Druid是一个开源的分布式数据存储。德鲁伊的核心设计结合了OLAP /分析数据库,时间序列数据库和搜索系统的思想,为广泛的用例创建了一个统一的系统。Druid将这三个系统中每个系统的关键特征合并到其接收层,存储格式,查询层和核心体系结构中。二、下载地址druid地址:https://www.apache.org/dyn/closer.cgi?path=/incubat...原创 2019-12-29 20:26:33 · 697 阅读 · 0 评论 -
62个大数据可视化工具
62个大数据可视化工具Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值、原作者:Andy Lurie。数据可视化无处不在,而且比以前任何时候都重要。无论是在行...翻译 2017-12-19 22:39:53 · 34935 阅读 · 2 评论 -
Hadoop安装
总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs、mapreduce等主从关系。1、环境,3台CentOS7,64位,Hadoop2.7需要64位Linux,CentOS7 Minimal的ISO文件只有600M,操作系统十几分钟就可以安装完成,Master 192.168.0.182 Slave1 192.168.转载 2017-10-16 22:21:34 · 238 阅读 · 0 评论 -
spark安装教程
spark最近出了2.0版本,其安装和使用也发生了些许的变化。笔者的环境为:centos7. 该文章主要是讲述了在centos7上搭建spark2.0的具体操作和spark的简单使用,希望可以给刚刚接触spark的朋友一些帮助。 按照惯例,文章的最后列出了一些参考文献,以示感谢。下面我们就来看一下spark的安装。spark的依赖环境比较多,需要Java JDK、hadoop的支持。我转载 2017-10-11 22:42:46 · 679 阅读 · 0 评论