- 博客(5)
- 资源 (3)
- 收藏
- 关注
转载 第001讲-Spark内核解密:Spark五大功能组件
一、Spark SQL SQL Core Spark SQL的核心是把已有的RDD,带上Schema信息,然后注册成类似sql里的”Table”,对其进行sql查询。这里面主要分两部分,一是生成SchemaRD,二是执行查询。 生成SchemaRDD 如果是spark-hive项目,那么读取metadata信息作为Schema、读取hdfs上数据的过程交给Hive
2016-01-21 20:26:40 4372
原创 第000讲-Spark内核解密:Spark到底解决了什么根本性的技术问题?
1.Spark产生的具体技术环境 在spark出现之前,hadoop的迅速发展,hadoop分布式集群,把编程简化为自动提供 位置感知性调度,容错,以及负载均衡的一种模式,用户就可以在普通的PC机上运行超大集群运算,hadoop有一个非常大的问题:hadoop是基于流处理的,hadoop会从(物理存储)hdfs中加载数据,然后处理之后再返回给物理存储hdfs中,这样不断的读取与写入,占用了大量
2016-01-21 17:17:31 1157
原创 scala-03:Tuple、Array、Map与file文件操作入门实战
一 Tuple 元祖 1,在sclal中有用的容器对象是元祖: Tuple,元组是n个对象的一个聚集(Map是n=2个对象的聚集),与列表一样,元素也是不可变的,但与列表不同,在一个元祖可以包含不同类型的元素。所以在scala用的非常多。 2,实例化: val tuple_test = (100, "Scala", "Spark") 3,可以通过点号,下划线,-N(N从1开始
2016-01-21 15:07:40 1148
原创 Scala-01:函数定义、流程控制、异常处理
一、字段/变量的定义: Scala中使用 var/val 变量/不变量名称 : 类型的方式进行定义,例如: object ScalaBasics { def main(args:Array[String]):Unit={ var firstNumber : Int = 1 val secondNumber : Int = 2 } } 其
2016-01-17 22:00:31 797
原创 scala-00:初识scala及其学习环境搭建
Scala介绍: Scala是一种将其他编程语言中的多种技巧融合为一的语言。Scala尝试跨越多种不同类型的语言,给开发者提供面向对象编程、函数式编程、富有很强的表达力的语法、静态强类型以及丰富的泛型、隐式转换等特性,而且全部架设于Java虚拟机之上。 Scala环境搭建(一下是在window7-x64系统中安装) 1、安装JDK:jdk-
2016-01-17 13:40:59 711
数据科学入门
2018-02-08
TensorFlow+官方文档中文版.pdf
2018-02-07
面向机器智能的TensorFlow实践
2018-02-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人