- 博客(5)
- 资源 (23)
- 收藏
- 关注
原创 【Hadoop】12.MapReduce框架原理-hadoop数据压缩
压缩概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,IO操作,网络数据传输,shuffle和merge都要花费大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此使用数据压缩显的非常重要。 鉴于磁盘IO和网络带宽是hadoop的宝贵资源,**数据压缩对于节省资源,最小化磁盘IO和网络传输非常有帮助。可以在任意MapReduc...
2019-06-07 11:08:14 290
原创 【JAVA】List的去重的三种方式的效率比较
说明 list的去重一般是有三种方式: Set方式 利用Set的特性,但不能保证List的数据添加顺序。 LinkedHashSet 继承HashSet并且实现了LinkedHashMap保存所有的数据,该方式是创建的双重链接列表,此列表定义了迭代顺序,能够记录list的数据添加顺序 list的for循环contains 效率对比 import org.apache.commons.lang....
2019-06-05 15:38:56 1928
原创 【Hadoop】10.MapReduce框架原理-连接(Join)
说明 在MR中经常会使用的是join,而join分为两种:一是ReduceJoin;二是MapJoin。 ReduceJoin ReduceJoin工作原理 Map端的主要工作:为来自不同表或文件的key/value时,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。 Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完...
2019-06-04 09:28:44 604
原创 【Hadoop】11.MapReduce框架原理-MR计数器
说明 Hadoop为每个作业维护若干内置计数器,以描述多项指标。例如,某些计数器记录已处理的字节数和记录数,使用户可监控已处理的输入数据量和以产生的输出数据量。 计数器API 采用枚举的方法统计计数enum MyCounter{MALFORORMED,NORMAL} //对枚举定义的自定义计数器加1 context.getCounter(MyCounter.MALFOFORMED).increm...
2019-06-04 01:22:36 280
原创 【Hadoop】关于Sqoop导出数据到postgresql时schema的设置问题
说明 使用sqoop导出导入数据非常的方便,但是对于postgresql(简称PG库)时就碰到了一个问题,pg库是三层结构的database——schema——table。如果想导入到某一个模式下,那就需要指定模式才可以。但是sqoop如何指定pg库的模式? 解决办法 碰到问题首先要看文档才对的。文档这里已经指出如何指定pg库的schema了。官方文档地址 文档已经说了,如果向指定schema需要...
2019-06-01 17:17:58 3290 2
C#大作业——图书管理系统(完整版)
2017-06-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人