Spark
聒噪鱼
Don't be a collector.
展开
-
Spark中Transformations、Actions
Transformations Transformation 描述 map(func) 通过应用一个函数的所有元素,返回一个新的分布式数据集 filter(func) 通过选择函数返回true的那些元素来形成,返回一个新的数据集 flatMap(func) 与map类似,但每个输入项都可以映射到0个或多个输出项(因此函数应该返回一个序列而不是单...原创 2018-03-12 11:15:39 · 763 阅读 · 0 评论 -
Hive、Spark学习总结(一)
1.压缩格式有哪几种?lzo bzip2 snappy gzip zlib2.文件格式有哪些?file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.fileformat configuration) | RCFILE -- (Note: Avail...原创 2018-03-12 11:24:14 · 681 阅读 · 0 评论 -
Spark中闭包的理解
概念的理解:函数可以访问函数外面的变量,但是函数内对变量的修改,在函数外是不可见的。 RDD相关操作都需要传入自定义闭包函数(closure),如果这个函数需要访问外部变量,那么需要遵循一定得规则,否则会抛出运行时异常。闭包函数传入到节点时,需要经过下面的步骤:驱动程序,通过反射,运行时找到闭包访问的所有变量,并封成一个对象,然后序列化该对象;将序列化后的对象通过网络传输到worke...原创 2018-03-06 13:50:26 · 657 阅读 · 0 评论