自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 数据采集框架 kafka

一、简介(1)定义:Kafka是一种高吞吐量的分布式发布订阅消息系统,被设计成能高效处理大量实时数据,其特点是快速的、可拓展的、分布式的、分区的和可复制的(2)消息系统作用:削峰 :用于承接超出业务系统处理能力的请求,使业务平稳运行。这能够大量节约成本,比如某些秒杀活动,并不是针对峰值设计容量。缓冲 :在服务层和缓慢的落地层作为缓冲层存在,作用与削峰类似,但主要用于服务内数据流转。比如批量短信发送。解耦 :项目尹始,并不能确定具体需求。消息队列可以作为一个接口层,解耦重要的业务流程。只需要遵守约

2021-12-17 01:18:42 4151

原创 数据采集框架 Flume

一、常用的数据采集工具(1)Chukwa:一个针对大型分布式系统的数据采集系统,构建在Hadoop之上,使用HDFS作为存储。(2)Flume:一个功能完备的分布式日志采集、聚合、传输系统,支持在日志系统中定制各类数据发送方,用于收集数据。(3)Scribe:facebook开发的日志收集系统,能够从各种日志源收集日志,存储到一个中央存储系统,以便于进行集中统计分析处理。(4)Kafka:一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。二、Flume1.2.1

2021-12-16 22:55:07 954

原创 Yarn内容

5.1 Yarn设计思路1、架构思路将原JobTacker三大功能拆分本质:是一个资源调度框架,原来的MapRedece既是一个资源调度框架,也是一个计算框架。MapReduce2.0的改进:它是运行在Yarn上的一个纯粹的计算框架,不再负责资源调度管理服务,而是由Yarn为其提供资源管理调度服务。2、架构原理(1)ResourceManager组件:处理客户端请求监控、启动ApplicationMaster监控NodeManager资源分配与调度(2)Application

2021-12-07 00:22:35 677

原创 MapReduce

4.1 概述1、概念是一种分布式并行编程模型,也是一个处理和生成超大数据集的算法模型的计算框架。2、与传统分布式并行编程模型的不同(1)集群的架构性和容错性:采用典型的非共享式架构集群中,每个节点都有自己的内存,任何一个节点出问题都不会影响其他节点,集群又设计了荣誉和容错机制(2)硬件价格和扩展性集群可以随意增加节点,只需要廉价的PC机就可以。(3)编程和学习难度:不需要有丰富经验的并行计算和分布式处理系统的程序员,它会自动实现分布式部署,部署到集群的各个机器上运行。(4)适用场景

2021-12-06 22:03:35 2031

原创 分布式存储系统HDFS

3.1 HDFS简介Hadoop平台解决两大核心问题:分布式存储分布式处理HDFS就是解决海量数据分布式存储背景:大数据时代,对于海量的数据,单个计算机无法处理,只能借助整个集群来处理海量数据。文件系统结构(主从结构):主节点:承担起目录作用,比如元数据服务。从节点:实现数据存取的任务。实现目标:兼容廉价的硬件设备实现流数据读写(对于数据整个读写或者大部分读写,不会访问某一个子集,或一个块),满足海量数据批处理需求支持大数据集支持简单的文件模型,牺牲一些相关的性能,但是

2021-12-06 01:43:07 3617

原创 2021-07-07

1.1 统计及其领域统计学:收集、处理、分析、解释数据并从数据中得出结论的方法收集数据:取得数据处理数据:整理与图表展示分析数据:利用统计方法分析数据解释数据:结果的说明得出结论:从数据分析中得出客观的结论分析方法(1)描述统计:数据收集、处理、汇总、图标描述、概括与分析等内容:数据收集数据处理数据展示描述性分析目的:描述数据特征找出数据的基本规律(2)推断统计:研究如何利用样本数据推断总体特征的方法内容:参数估计假设检验目的:对总体做出推断1.2

2021-07-08 11:23:02 213

原创 2021-06-27

1.3 数据系统的标准结构(1)数据库系统的分层抽象DBMS管理数据的三个层次外部(用户)层次用户能够看到与处理的数据全局数据中的某一部分(映射)全局(概念)层次从全局角度理解/管理的数据含有相应的关联约束内部层次存储在介质上的数据含存储路径、存储方式、索引方式(2)数据(视图)与模式模式对数据库中数据进行的一种结构性的描述所观察到数据的结构信息视图/数据某种表现形式下表现出来的数据库中的数据(3)三级模式与两层映像三层模式外模式用户能够看

2021-06-27 12:49:48 64

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除