感觉好久没更新博客了···spark1.4.0版本已经出来了···其中sparkR终于出来、spark为应用提供了REST API来获取各种信息(jobs、stages、tasks、storage info),使用这个REST搭建监控可以很容易了解DAGScheduler的运行细节。···在新版本中shuffle的map阶段输出会被序列化(spill发送到磁盘上的文件小了、GC效率提高了)···Project Tungsten(传说中会在1.4版本以后继续修改内核,为了使硬件配置发挥到极致),引入UnsafeShuffleManager提供缓存排序算法,为了降低shuffle过程中的内存使用量。···sparkstreaming添加了新的UI。···sparkSQL支持更多的数据库。···
Tachyon文件系统
是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在于Tachyon里的文件。
Tachyon是一个架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间键,用于将没有在DFS里的文件共享内存、提高效率。
HDFS和Tachyon的区别:
HDFS:设计用来存储海量文件的分布式系统;
Tachyon:设计用来缓存常用数据的分布式内存文件系统;
Tachyon采用Master/Slave架构、模式:单机、集群、高可用集群
Tachyon API: TachyonFs
/
scala:面向表达式语言(在代码中更多使用表达式而不用语句)
语句是可以执行的东西,表达式是可以求值的东西,语句执行代码不返回值,表达式返回值
scala绝大部分语句都返回其最后一个表达式的值