![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
卖报的小男孩0716
技术菜鸟,漫漫进阶之路
展开
-
HDFS
概述Hadoop分布式文件存储系统HDFS为了保证数据存储的可靠性和读取性能,对数据进行切块后进行复制(保证副本的数量)并存储在集群的多个节点中.HDFS中存在一个名字节点NameNode和多个数据节点DataNodeHDFS优点1.支持超大文件2.检测和快速应对硬件故障故障检测和自动恢复(心跳机制)是hdfs文件系统的一个设计目标3.流式数据访问hdfs的的数据处理规模比较大,...原创 2019-01-05 14:58:07 · 161 阅读 · 0 评论 -
Spark
简述是一种快速、通用、可扩展的大数据分析引擎。它是不断壮大的大数据分析解决方案家族中备受关注的明星成员,为分布式数据集的处理提供了一个有效框架,并以高效的方式处理分布式数据集。Spark集批处理、实时流处理、交互式查询、机器学习与图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。目前,Spark社区也成为大数据领域和Apache软件基金会最活跃的项目之一,其活跃度甚至远超曾经只能...原创 2019-01-07 09:59:36 · 135 阅读 · 0 评论 -
Scala
简述Scala既是面向对象的语言,也是面向函数的语言。scala可以为你在做大量代码重用和扩展是提供优雅的层次结构,并可以通过高阶函数来实现这样的目标。(高阶函数是函数式编程里的特性之一,允许函数作为参数传递,也允许函数作为返回值来返回)Scala语言的特点Scala并不适于编程的初级课程。相反,它是为专业程序员定制的强力语言。1)它是一门现代编程语言,作者是Martin Odersky(...原创 2019-01-05 16:00:53 · 86 阅读 · 0 评论 -
Storm
Storm概述实时计算可以实时获取数据进行运算,得到计算结果,在很多实时性要求比较高的场景下有大量的应用.例如:微博热门话题榜单、电商网站实时推荐、地图路况信息。实时计算和离线计算有较大的不同,实时计算强调实时性,数据不断流入,实时运算后结果实时反馈,实时计算没有数据积累的过程,有开始没有结束,如果不人为停止会一直运行下去。Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的...原创 2019-01-05 15:56:38 · 88 阅读 · 0 评论 -
Kafka
KafKa是一个分布式的消息队列,既然说到了消息队列那么也就意味着它的出现是为了解决通信问题的。具体来说就是发送消息的一方(在这里我们称之为生产者)会将数据写到消息队列中然后消息的接收者(在这里我们称之为消费者)会从这个队列中读取数据进而达到通信的目的。KafKa的设计非常的特别,它没有采用传统的基于内存读写的队列而是将整个队列读写的过程都放在了硬盘上。这里我们可能会担心硬盘的读写效率,但事实上...原创 2019-01-05 15:52:59 · 126 阅读 · 0 评论 -
Hbase
HBase概述HBase是一款基于HDFS做存储的,Zookeeper做调度的能够存储半结构化与非结构化数据的数据库。它不同于Hive它是一个真正的数据库产品,它的内部基于顺序IO与内存读写,能够非常高效的实现数据的增删改查。HBase的总体架构HBase有如下几个部件协调服务:HMaster:主要负责,给HRegionServer分配Region,HRegionServer的负载均衡。负...原创 2019-01-05 15:45:04 · 177 阅读 · 1 评论 -
Hive
Hive的本质是一个翻译器。它的任务就是将一种类SQL(HQL)的语句翻译成Mapreduce任务,通过执行Mapreduce任务来对海量数据仓库进行处理。从表面上来看它就是一个数据仓库能够查询与分析数据。它与Hadoop的关系如下图所示:与传统数据库相比Hive的主要特点为:①分析离线存储数据,不具有实时性②不支持事务,由于是历史数据所以没有必要去增删改。③不支持修改,由于是历史数据所...原创 2019-01-05 15:31:27 · 111 阅读 · 0 评论 -
flume
Flume概述flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式管理的系统。他的核心思想就是从不同的数据源(比如说远程的http请求,监听远程的日志文件,当然也有可能是远程的程序发出的序列化数据)获得数据然后放入数据中转站,然后不同的数据中转站之间可以进行相互连接构成一个中转站网,最后我们可以将一根管子通到中转站上的任何一个节点来接收数据。是ap...原创 2019-01-05 15:27:52 · 57 阅读 · 0 评论 -
Hadoop
Hadoop是基于Google的集群系统理论来进行的开源实现:Google的集群系统:GFS、MapReduce、BigTableHadoop的集群系统:HDFS、MapReduce、HBaseHadoop设计的初衷是为了解决Nutch的海量数据存储和处理的需求,可以解决大数据场景下的数据存储和处理的问题。一开始HDFS和MapReduce是作为Nutch的两个组件来使用,后来发现这两个组件...原创 2019-01-05 15:18:43 · 163 阅读 · 0 评论 -
大数据面试题
hive内部外部表的区别?答:内部表先有表 后有数据,数据被存储到hdfs目录下表对应的文件夹进行管理。使用Hive命令删除表相关的操作时HDFS上对应的文件就会被删掉。外部表先有数据后有表,hive表关联到该位置管理其中的数据。Hive的一切命令都不能够对外部文件造成影响。Hadoop和spark区别?答:hadoop核心包括Hadoop分布式文件系统(HDFS),Hadoo...原创 2019-01-07 10:16:21 · 527 阅读 · 2 评论