大数据
我是超越
精于高性能移动互联网系统架构、企业级系统架构,有多年的的团队管理经验
展开
-
大数据学习路线
大数据学习路线,努力追求一下。一、Hadoop入门,了解什么是Hadoop1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、Hadoop生态圈以及各组成部分的简介7、Hadoop核心MapReduce例子说明二、分布式文件系统HDFS,转载 2016-07-20 14:17:25 · 694 阅读 · 0 评论 -
hadoop开发优化总结
1、MapReduce数据压缩: 1)压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。 在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。 在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。 ***压缩mapreduce的一种优化策略:通过压缩编码对...原创 2018-05-17 09:11:57 · 242 阅读 · 0 评论 -
ETL讲解
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三...转载 2018-05-17 09:16:09 · 215 阅读 · 0 评论 -
hadoop开发重点总结
1、Mapper的key排序方式默认为快速排序,合并切片文件时用的是归并排序,继承Mapper类 * 驱动类关联map:job.setMapperClass(WordcountMapper.class); 2、Reducer需要继承Reducer类,重写reduce(key, values, context)方法 * 驱动类关联reducer:job.setReducerClass(Wordcou...原创 2018-05-17 09:22:47 · 307 阅读 · 0 评论