Spark
文章平均质量分 91
lotus_tang
这个作者很懒,什么都没留下…
展开
-
【转】探寻从HDFS到Spark的高效数…
转自http://www.aboutyun.com/thread-10668-1-1.html为了保证高效的数据移动,locality是大数据栈以及分布式应用程序所必须保证的性质,这一点在Spark中尤为明显。如果数据集大到不能保证完全放入内存,那就不能贸然使用cache()将数据固化到内存中。如果读取数据不能保证较好的locality性质的话,不论是对即席查询还是迭代计算都将面临输入瓶原创 2015-12-15 11:47:04 · 389 阅读 · 0 评论 -
利用eclipse构建spark集成开发环境
前一阵利用eclipse构建spark集成开发环境,遇到了一些问题,将遇到的问题和解决方法跟大家分享下~问题一:在用eclipse构建spark的过程中,在eclipse中创建了Map/ReduceProject,导入了spark,scala的jar包,但是出现了各种ClassNotDefError这种错误。原因是jar包依存关系比较复杂,缺少相关的jar包。问题二:董西成的博客中说利用原创 2015-12-15 11:49:01 · 1163 阅读 · 0 评论 -
Spark亚太研究院王家林:从技术的…
2014-12-04 10:20 记者:林师授 整理:张伟 第二代大数据技术Spark 首先先来抛开这两种技术,谈一下大数据。大数据是数据的一种,数据处理到达一定复杂程度,或者数据规模到达一定程度的时候便会称之为大数据。在采访中王家林讲到:“其实关于大数据的处理本身包含两部分,一部分是数据的存储,另外一部分就是数据计算本身。目前而言谈大数据大家最常知道的技术是Hadoop,做得比较原创 2015-12-15 11:46:55 · 2170 阅读 · 0 评论