2018年01月_weixin_40652340

02月 01月

原创 SparkSQL DSL开发

import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.{SparkConf, SparkContext}case class Person

2018-01-30 16:18:06 2642

原创 SparkSQL

============SparkSQL的前身Shark概述=================================在三四年前，Hive可以说是SQL on Hadoop的唯一选择，负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容，Shark项目由此而生。Shark即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻

2018-01-30 11:51:54 416

原创 SparkCore

SparkCore========================================MapReduce 分布式计算框架缺点： -1.执行速度慢 IO瓶颈：磁盘IO、网络IO shuffle的机制：数据需要输出到磁盘，而且每次都需要进行排序的操作 -2. 框架的缺陷只有map和reduce两个操作

2018-01-29 17:02:04 1967

原创 Scala基础

Scala基础教程：http://www.runoob.com/scala/scala-tutorial.html值与变量(推荐使用val，第一选择使用val，如果业务需要，才允许使用var) val和var的区别？ val: 值，赋值后，数据不可变 var: 变量，赋值后，数据可变定义格式： [var or val] name[:type]

2018-01-29 11:40:57 207

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人