Napoleon的专栏

专注于技术

Spark——性能调优——Shuffle

一、序引     当以分布式方式处理数据时,常常需要执行map与reduce转换。由于巨量数据必须从一个节点传输到另外的节点,给集群中的cpu、磁盘、内存造成沉重的负载压力,同时也会给网络带宽带来压力。所以,reduce阶段进行的shuffle过程,往往是性能的瓶颈所在。     shuffl...

2017-07-29 22:03:52

阅读数 665

评论数 0

Spark——性能调优——执行模型与分区

一、序引     考虑到性能问题,而言Spark基本原理、执行模型、描述数据被shuffle(洗牌),乃是前提条件。     掌握数据序列化,缓存机制,以及内存管理、垃圾回收,亦十分必须。 二、Spark执行模型     在大言Spark应用的性能改善之前,十分有必要先了解Spark在集群...

2017-07-21 18:00:24

阅读数 546

评论数 0

中国历史时期划分

一、上古史:周以前     二、中古史:         上:从秦朝统一起,到后汉全盛时代止         中:从汉末分裂起,到南北朝止         下:从隋朝统一起,到唐朝全盛时代止     三、近古史:         上:从唐中叶以后藩镇割据起,到五代止         ...

2016-06-16 06:31:19

阅读数 1163

评论数 0

Hadoop分布式文件系统——LZO

Hadoop提供了bzip2、gzip、DEFALTE等多种传统压缩算法,亦实现了这些算法的JAVA实现。因为,既可以用FileSystem API对文件进行压缩和解压,也可以通过MapReduce输入输出格式化来实现。这些算法的缺点是:压缩格式不可分割,即不可分片!     然而,Hadoop...

2016-01-22 11:27:59

阅读数 485

评论数 0

Hadoop分布式文件系统——HDFS的读写

HDFS是运行在通用硬件平台上的可容错分布式文件系统。它优化了大文件的流式读取模式,适用于那些高吞吐并且对延迟性要求相对比较低的场景。它还通过文件“一次写入,多次读取”的简单策略保证了数据的一致性。HDFS亦使用了“块复制”的概念,让数据在集群的节点间进行复制,每个数据块复制的份数由“复制因子”决...

2016-01-22 10:06:26

阅读数 1197

评论数 0

Hadoop分布式文件系统——导入和导出数据

一、使用hadoop shell命令导入和导出数据到HDFS         →1、创建新目录:hadoop fs -mkdir /data/logs/         →2、从本地复制到HDFS的新目录:hadoop fs -copyFromLocal entries.log /data/l...

2016-01-10 15:45:45

阅读数 6509

评论数 0

《山海经——海外经》

海外南经         结匈国→南山→比翼鸟→羽民国→二八神→毕方鸟→讙头国→厌火国→三株村→三苗国→臷国→贯匈国→交胫国→不死民→岐舌国→昆仑虚→寿华之野→三首国→周饶国→长臂国→狄山→南方祝融     海外西经         灭蒙鸟→大运山→大乐之野→三身国→一臂国→奇肱国→形天与帝...

2015-11-15 20:17:41

阅读数 980

评论数 0

《山海经——五藏山经》

南山经         南山经→鹊山→招瑶山→堂庭山→猿翼山→杻阳山→柢山→亶爰山→基山→青丘山→箕尾山         南次二经→柜山→长右山→尧光山→羽山→瞿父山→句馀山→浮玉山→成山→会稽山→夷山→仆勾山→咸阴山→洵山→虖勺山→区吴山→鹿吴山→漆吴山         南次三经→天虞山→...

2015-11-01 09:36:51

阅读数 1475

评论数 0

JAVA-QUEUE类图

Queue学习笔记

2015-08-21 10:03:22

阅读数 711

评论数 0

历史文化百科(一)

一、露西    1974年,考古学家在埃塞俄比亚东北部阿法(Afar)地区发现了一具几乎完整的、高达1.1米的女性非洲南方古猿遗骨,这项发现引起了前所未有的轰动。她被称为“露西”,名字来自于当时考古营地正在播放的甲壳虫乐队的一首歌。媒体很快把她称做“缺失的环节”。她属于人类种系,并且拥有所有直立行...

2015-08-09 21:14:22

阅读数 660

评论数 0

《Java Concurrency in Practice》之线程封闭(Thread Confinement)

当访问共享的可变数据时,通常需要使用同步。一种避免使用同步的方式就是不共享数据。如果仅在单线程内访问数据,就不需要同步。这种技术被称为是线程封闭(Thread Confinement),它是实现线程安全性的最简单方式之一。当某个对象封闭在一个线程中时,这种用法将自动实现线程安全性,即使被封闭的对象...

2015-07-27 16:46:05

阅读数 765

评论数 0

密码学的进化史——手工加密阶段

一、手工加密阶段    密码学很早就广泛应用于古代战争中,使用手工方式完成加密损伤,以确保战争中军事信息的秘密传送,这一阶段称为手工加密阶段。这一阶段是古典密码学蓬勃发展的时期,称为古典加密阶段。     公元前1000年左右,武王伐纣时期。见于周朝兵书《六韬·龙韬》,书中记载了周朝著名军事家姜...

2015-07-19 19:05:33

阅读数 1544

评论数 0

《世界历史》—史前时期的分期

史前时期分为旧石器时代、新石器时代、青铜时代以及铁器时代: 旧石器时代早期:约公元前250万~前1万年 新石器时代:公元前10000/8000~前4000/1800年 青铜时代:约公元前4000~前700年(中东);公元前1800~前800年(欧洲) 铁器时代:始于约公元前1100/前800年 人...

2015-07-18 17:26:25

阅读数 828

评论数 0

微信基本交互分析

2015-06-15 11:05:05

阅读数 1105

评论数 0

微信开发流程梳理(一)

该经验适用于网页程序的开发,且针对企业号!     一、获取code         1、官方url:https://open.weixin.qq.com/connect/oauth2/authorize?appid={0}&redirect_uri={1}&response_...

2015-05-20 17:39:30

阅读数 846

评论数 0

大型互联网流量统计之简易架构

一、采集端                 1、概述:收集所有需要统计的指标,录入文件或数据库。收集端的数据,是最原始的数据。                 2、方式:(1)、可通过Servlet的Filter程序,生成详细的日志文件,即原始数据。                     ...

2015-03-25 12:08:41

阅读数 599

评论数 0

大型互联网流量统计之统计指标

一、基本指标: (一)、UV: 统计规则:任意统计时间内,不重复的计数。 标识:注册并登录的用户,无须再另行标识;非注册用户,需要标识,可采用cookie的方式。 (二)、PV: 统计规则:任意统计时间内,所有浏览页面的访问行...

2015-03-24 09:38:22

阅读数 1569

评论数 0

《春秋·战国》大事年表

春秋

2014-10-25 13:07:19

阅读数 4974

评论数 0

春秋争霸简记

公元前651年,齐桓公称霸

2014-10-25 09:58:54

阅读数 667

评论数 0

设计模式之间的关系图

转载自:

2014-09-15 10:49:12

阅读数 664

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭