Spark
暴雨骄阳
这个作者很懒,什么都没留下…
展开
-
Spark中RDD的设计思想
Spark 设计思想,spark想通过一种新的作业和数据的容错方式,达到减少磁盘和网路Io的开销,为了达到这个目的,他们设计了一种新的抽象数据结构RDD(Resilient Distributed Datasets). RDD是一种只读的数据块,可以从HDFS上读取得到,也可以通过对其他的RDD进行操作而得到,只要对一个RDD进行操作,结果一个得到一个新的RDD,即使在代码中他们使用同一个变量表示原创 2015-10-04 19:10:59 · 593 阅读 · 0 评论 -
实时数据流式分析改变商业游戏规则
近些年,大数据流式处理的讨论热了起来,就在去年,阿里巴巴想apache基金会贡献了java语言版的Jstorm,那么?为什么现在企业会越来越关注大数据的流式处理呢?仅仅对大容量的离线数据分析挖掘,已经逐渐满足不了企业不断增长的需求,新的技术和理论必将应运而生。 大容量的数据必须能够被极快速的处理,从而让企业的决策者能够迅速的根据市场变化而改变战略,这将成为未来商业,在满足客户差异化需求上的阿喀琉斯原创 2017-01-27 15:42:24 · 1540 阅读 · 0 评论