大数据
文章平均质量分 93
大致若愚
这个作者很懒,什么都没留下…
展开
-
大数据开发常见面试问题总结
1、简述对大数据组件的理解?Yarn:大数据组件运行的job的管理器 Spark:分布式的利用内存进行分布式运算的大数据组件 Hbase:基于Hadoop的大数据常用数据库 Hive:基于Hadoop的大数据数据仓库,操作和关系型数据库(MySQL)类似2、hdfs文件系统中NameNode和DataNode的区别和联系?NameNode存储了元数据,并且调度,协调整个集群Da...原创 2019-01-03 17:08:51 · 45859 阅读 · 1 评论 -
大数据计算框架与平台
1.前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数据处理,除了与存储系统打交道外,还涉及计算任务的分工,计算负荷的分配,计算机之间的数据迁移等工作...转载 2018-12-25 20:22:48 · 550 阅读 · 0 评论 -
大数据业务架构
一、数据采集采集层 主要可以使用Flume, Kafka两种技术。 Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API. Kafka:Kafka是一个可持久化的分布式的消息队列。 Flume和Kafka可以结合起来使用。通常会使用Flume + Kafka的方式。其实如果为了利用Flume已有的写HDFS功能,也可以使用Kaf...原创 2018-12-25 20:55:21 · 1596 阅读 · 0 评论 -
大数据复习
一、大数据高并发基础 1、NIO(同步式非阻塞式IO)BIO:面向流操作字节字符----回产生阻塞行为:receive、accept、connect、read、write NIO:面向通道操作缓冲区----基本组件:Buffer、Channel、Selector 同步 异步 : 参与并发的双方的协调机制是否需要互相 粘包问题使用协议约定传输规则 ...原创 2019-01-15 15:35:57 · 371 阅读 · 0 评论