BIN3399-CSDN博客

原创大数据融合数仓场景化解决方案总结笔记

1.数据仓库与融合数仓数据库架构设计Shared - Disk各个处理单元使用自己的私有 CPU和Memory，共享磁盘系统Shared - Everything一般是针对单个主机，完全透明共享CPU/Memory/IO，并行处理能力是最差的。Shared - Nothing各个处理单元都有自己私有的CPU/Memory/硬盘等，不存在共享资源，各处理单元之间通过协议通信，并行处理和扩展能力更好。数据处理机制主要分为OLAP和OLTPOLAP ...

2020-08-06 15:34:01 2473

原创 spark相关介绍

spark：一站式的解决方案，集批处理，实时流处理，交替式查询。图计算与机器学习于一体应用场景：批处理可用于ETL（抽取，转换，加载）机器学习可用于自动判断淘宝的买家评论式好评还是差评交互式分析可用于查询Hive数据仓库流处理可用于页面点击流分析，推荐系统，舆情分析等实时业务特点：轻：核心代码有3万行快：对小数据集可达到亚秒级的延迟灵：不同层面的灵活巧：巧妙借力其他组件Spark中间数据存放在内存中，对于迭代运算，批处理计算效率高，延迟低Spark...

2020-07-29 09:50:22 272

原创 ElasticSearch笔记总结介绍

ElasticSearch简介ElasticSearch是一个高性能，基于Lucene的全文检索服务，是一个分布式的Restful风格的搜索和数据分析引擎，也可以作为NoSQL数据库使用。对Lucene进行了扩展原型环境和生产环境可无缝切换能够水平扩展支持结构化和非结构化数据（Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包，是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目

2020-07-29 09:39:41 358

原创 YARN总结笔记简简介

YARN概述Apache Hadoop YARN 是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。YARN组件架构ResourceManager 负责集群资源统一管理和计算框架管理，主要包括调度与应用程序管理。调度器：根据容量、队列等限制条件，将系统中的资源分配给各个正在运行的应用程序。应用程序管理器：负责管理整个系统中的所有应用程序，包括应用程序提交，与调度器协商...

2020-07-29 09:38:14 296

原创 spark总结笔记

apache spark一种基于内存的快速、通用、可扩展的大数据计算引擎。集一站式解决方案，批处理、实时流处理、交互式查询、图计算与机器学习于一体。轻：Spark核心代码有3万行。Scala语言的简洁和丰富表达力。巧妙利用了Hadoop和Mesos的基础设施。快：Spark对小数据集可达到亚秒级的延迟。对大数据集的迭代机器学习即席查询、图计算等应用，Spark 版本比基于MapReduce、Hive和Pregel的实现快。内存计算、数据本地性和传输优化、调度优化。灵：Spark提供了不同层面

2020-07-29 09:37:23 286

原创 kafka总结笔记

Kafka简介： Kafka是一个高吞吐，分布式，基于发布订阅的消息系统，利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。应用场景：Kafka和其他组件比较，具有消息持久化，高吞吐，实时等特性，适用于离线和实时的消息消费，如网站活性跟踪，聚和统计系统运营数据(监控数据), 日志收集等大量数据的数据手机场景。优点：高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒；可扩展性：kafka集群支持热...

2020-07-29 09:33:25 252

原创 hive总结笔记

Hive是基于Hadoop的数据仓库软件，使用类SQL的HiveQL语言实现数据查询功能，可以查询和管理PB级别的分布式数据，所有Hive的数据都存储在HDFS中特点：灵活方便的（ETL提取/转换/加载）支持MapReduce，Tez，Spark等多种计算引擎。可直接访问HDFS文件以及HBase。易用易编程Hive 的设计特点有：支持索引，加快数据查询不同的存储类型例如，纯文本文件可以直接使用存储在hdfs上内置大量函数类SQL 的查询方式，将SQL 查询转换为MapReduc

2020-07-29 09:32:19 336

原创 flume总结笔记

flume:Flume是开源日志系统。是一个分布式、可靠和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。Flume简介及架构Flume是什么Flume是流式日志采集工具，Flume提供对数据进行简单处理并且写到各种数据接受方（可定制）的能力，Flume提供从本地文件（spooling directory source)、实时日志（taildir、exec)、REST消息、Thrift.

2020-07-29 09:31:07 639

原创 hbase总结笔记

HBase作为一个高可靠性、高性能、面向列、可伸缩的分布式数据库，提供海量数据存储功能，适合于存储大表数据，并且对大表数据的读、写访问可以达到实时级别。HBase适合具有如下需求的应用海量数据 (TB、PB) 。不需要完全拥有传统关系型数据库所具备的ACID特性。高吞吐量。需要在海量数据中实现高效的随机读取。需要很好的性能伸缩能力。能够同时处理结构化和非结构化的数据。行存储行存储，数据按行存储在底层文件系统中。每一行会被分配固定的空间。优点：有利于增加/修改整行记录等操作；有利于整

2020-07-29 09:30:17 374

原创 hdfs总结笔记

HDFS是Hadoop技术框架中的分布式文件系统可以放在多台独立物理机器上的文件进行管理HDFS作为Hadoop的基础存储设施，实现了一个分布式、高容错、可线性扩展的文件系统。其中自身具备的特点高容错性：不相信自己的硬件，保存数据保存多个副本高吞吐量：为大量数据访问的应用提供高吞吐量支持。大文件存储：支持存储TB-PB级别的数据适合大文件存储与访问流式数据访问但不适合大量小文件存储随机写入低延迟读取架构在hdfs架构中有三部分NameNode：用于存储元数据Da..

2020-07-29 09:29:13 237

weixin_43401491的博客