文档
文章平均质量分 96
dabokele
这个作者很懒,什么都没留下…
展开
-
Spark SQL官方文档阅读--待完善
1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表.编程入口:SQLContext2,SQLContext由SparkContext对象创建也可创建一个功能更加全面的HiveContext对象,HiveContext是SQLContext的子类,从API中可以看出HiveContext extends SQLContext,所以能用SQL翻译 2015-09-24 10:21:28 · 4100 阅读 · 0 评论 -
Spark-SQL之DataFrame操作大全
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json文件、hive表,以及通过JD原创 2016-10-12 23:31:35 · 197195 阅读 · 18 评论 -
Spark Streaming编程指南
本文基于Spark Streaming Programming Guide原文翻译, 加上一些自己的理解和小实验的结果。 一、概述 Spark Streaming是基于Core Spark API的可扩展,高吞吐量,并具有容错能力的用于处理实时数据流的一个组件。Spark Streaming可以接收各种数据源传递来的数据,比如Kafka, Flume, Kinesis或者TCP等,对接收到的翻译 2016-10-13 22:03:35 · 6874 阅读 · 3 评论 -
Programming In Scala笔记-第十六章、Scala中的List
本章主要分析Scala中List的用法,List上可进行的操作,以及需要注意的地方。一、List字面量 首先看几个List的示例。val fruit = List("apples", "oranges", "pears")val nums = List(1, 2, 3, 4)val diag3 = List( List(1, 0, 0), List(0, 1, 0),原创 2016-10-18 00:01:07 · 1835 阅读 · 0 评论 -
Spark Streaming中的操作函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func) map操作需要传入一个函数当做参数,具体调用形式为val b = a.map原创 2016-09-21 00:09:18 · 14328 阅读 · 2 评论 -
Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档。 本文主要讲解了Spark Streaming如何从Kafka接收数据。Spark Streaming从Kafka接收数据主要有两种办法,一种是基于Kafka high-level API实现的基于Receivers的接收方式,另一种是从Spark 1.3版本之后新增的无Receivers的方式。这两种方式的代码编翻译 2016-10-14 00:08:55 · 6228 阅读 · 2 评论 -
Sqoop-1.4.5用户手册
本文以Sqoop User Guide (v1.4.5)为主,对Sqoop-1.4.5的用户手册进行翻译,同时会结合一些实际操作中的注意事项一并写入。由于原文档很长,本文首先会以实际使用到的部分为主,逐步进行完善。 1、Introduction Sqoop是一个用于在Hadoop和关系型数据库之间流转数据的一个工具。可以使用Sqoop将数据从关系型数据库系统(RDBMS)比如MySQL或者Orac翻译 2016-07-09 21:08:11 · 10549 阅读 · 0 评论 -
Programming In Scala笔记-第十七章、Scala中的集合类型
本章主要介绍Scala中的集合类型,主要包括:Array, ListBuffer, Arraybuffer, Set, Map和Tuple。 一、序列 序列类型的对象中包含多个按顺序排列好的元素,可以访问其中特定位置的元素。序列类型主要包括List,Array, ListBuffer, ArrayBuffer 。1、List List在前一章已经介绍过,略。2、Array 数组在很多编程原创 2016-10-20 22:58:07 · 1183 阅读 · 0 评论 -
Hive-ORC文件存储格式(续)
本文在Hive-ORC文件存储格式的理论基础上,进一步分析一个实际的Hive ORC表中的数据存储形式。原创 2016-07-02 23:35:36 · 10633 阅读 · 1 评论 -
分析比较KafkaWordCount及DierctKafkaWordCount
参考spark官方文档,Spark Streaming + Kafka Integration Guide,其中提到Spark Streaming如何从Kafka中接收数据.主要有两种方法,一种是使用Receivers的旧方法,另一种是不使用Receivers的新方法(从Spark 1.3才开始引入)1,Approach 1: Receiver-based Approach(基于Rec翻译 2015-09-24 10:31:03 · 1570 阅读 · 0 评论 -
Mathjax公式教程
一般公式分为两种形式,可以理解为一种特殊的代码块,这是行内公式:$ \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. $这是行内公式:Γ(z)=∫∞0tz−1e−tdt.Γ(z)=∫0∞tz−1e−tdt. \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. 这是块公式$$\Gamma(z) = ...原创 2018-03-16 09:36:30 · 35047 阅读 · 4 评论