spark
quguilai2006
这个作者很懒,什么都没留下…
展开
-
spark点滴
~spark的核心是把数据源抽象为分布式对象RDD,分布在各个计算节点的内存中。本地计算+内存+集群计算使得spark效率比较高。~对于用户来说RDD自带各种算子,使得编写分布式程序和本地程序一样,而spark通过把RDD的算子转换成各个实际工作的task,并把task的序列化为class字节码,从而能在各个计算节点反序列化,加载并运行。~,每个新的action操作都会使整个RD...原创 2016-07-14 22:36:55 · 77 阅读 · 0 评论 -
Spark架构与作业执行流程
转载于:http://www.it165.net/pro/html/201404/11952.htmlhttp://blog.csdn.net/hwssg/article/details/38537523park应用程序的运行架构: (1)简单的说:由driver向集群申请资源,集群分配资源,启动executor。driver将spark应用程序的代码和文件传送给exec...原创 2016-07-16 10:43:52 · 202 阅读 · 0 评论 -
intellij idea 快捷键
ctrl+F12 查看当前类方法ctrl+H查看类的继承情况ctrl+shift+H 查看方法的继承情况ctrl+alt+H查看方法的调用情况Ctrl+Alt+B 查看实现类原创 2016-07-19 23:01:53 · 87 阅读 · 0 评论 -
spark 源码疑问
protected def getInputFormat(conf: JobConf): InputFormat[K, V] = { val newInputFormat = ReflectionUtils.newInstance(inputFormatClass.asInstanceOf[Class[_]], conf) .asInstanceOf[InputFormat[K, ...原创 2016-07-20 22:56:53 · 107 阅读 · 0 评论 -
spark源码
http://blog.csdn.net/anzhsoft/article/details/48594363 http://blog.sina.com.cn/s/blog_8813a3ae0102v4d9.html原创 2016-07-25 23:37:34 · 93 阅读 · 0 评论 -
Spark Stream点滴
~spark stream的工作原理是接收实时输入数据流生成表示RDD序列的Dstream,由spark引擎处理生成按批次的结果流。~Dstream也提供类似RDD的各种算子,实际上在Dsream上的算子也会传递给起内部的一系列RDD。DStream 中 有一个HashMap[Time,RDD[T]]类型的对象 generatedRDDs,其中Key为作业开始时间,RDD为该DStre...原创 2016-08-13 18:57:15 · 176 阅读 · 0 评论 -
kafka点滴
~Kafka的目的就是要成为一个队列平台,仅仅使用它就能够既支持离线又支持在线使用这两种情况~consumer group是接收消息的最小单位,也就是consumer group消费的消息只由其中的一个consumer接收。~每个kafka队列都有分区数,每个分区在物理上对应一个文件夹, 以”topicName_partitionIndex”的命名方式命名,该文件夹下存储这个分区的所有...原创 2016-08-14 12:31:09 · 104 阅读 · 0 评论