大数据
七月知上
梦回江南
展开
-
[大数据]由点入面了解MapReduce
一:MR的工作原理是什么?1.从HDFS读取的文件进行split分片,split与block的对应关系可能是多对一,默认是一对一,每一片对应一个map。2.在经过mapper的运行后,我们得知mapper的输出是这样一个key/value对;同时执行partitioner,每一个map对数据通过hash生成不同的key进行partition,决定数据对应的reduce,默认对key hash后再以...原创 2018-03-04 19:41:03 · 352 阅读 · 0 评论 -
[大数据]由点入面了解HDFS
一:HDFS各个模块职责?1.HDFS Client: 系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写, 写数据时文件切分由Client完成。2.Namenode:Master节点(也称元数据节点),是系统唯一的管理者。负责元数据的管理(名称空间和数据块映射信息);配置副本策略;处理客户端请求。3.Datanode:数据存储节点(也称Slave节点),存...原创 2018-03-04 14:47:10 · 437 阅读 · 0 评论 -
[大数据]由点入面了解Yarn
一:Yarn的基本组成?1.ResourceManager(RM)RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Manager,ASM)。调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。应用程序管理器负责管理整个...原创 2018-03-04 21:28:13 · 347 阅读 · 0 评论 -
[大数据]由点入面了解Hive
一:Hive内部表和外部表的区别?Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。二:数据倾斜的原因和解决方案?1.数据倾斜表现:任务进度长时间维持在99%(或100%),查看任...原创 2018-03-05 00:48:15 · 477 阅读 · 0 评论 -
[大数据]数据仓库好文分享
1.深入对比数据仓库模式:Kimball vs Inmonhttps://segmentfault.com/a/11900000062559542.如何通过数据驱动业务发展http://36kr.com/p/5092209.html3.数据仓库建设的基本思路和实践http://mp.weixin.qq.com/s/Dug4Z4uDTP9eZp5171owNw4.星型数据仓库olap工具kylin介...原创 2018-03-31 20:17:01 · 702 阅读 · 0 评论