- 博客(12)
- 资源 (17)
- 收藏
- 关注
原创 使用Scala的强大api快速加工数据
Scala是一门高级的,非常灵活和强大的函数式编程语言,既支持类型严格,语义明确的面向对象的编程风格,也支持类型多变,写法风骚的函数式编码。Scala中封装了许多有用强大的api,使我们处理数据更加方便,当然Java8以后也支持了一些函数式编程的写法的语法糖,终于能使雍容的java代码精简不少,有名的开源框架如Spark,Kafka,Filnk也都是使用Scala编写的,感兴趣的朋友可以学
2017-07-31 20:34:17 1313
使用Scala的强大api快速加工数据
Scala是一门高级的,非常灵活和强大的函数式编程语言,既支持类型严格,语义明确的面向对象的编程风格,也支持类型多变,写法风骚的函数式编码。Scala中封装了许多有用强大的api,使我们处理数据更加方便,当然Java8以后也支持了一些函数式编程的写法的语法糖,终于能使雍容的java代码精简不少,有名的开源框架如Spark,Kafka,Filnk也都是使用Scala编写的,感兴趣的朋友可...
2017-07-31 20:33:43 187
原创 在scala中使用spark sql解决特定需求(2)
接着上篇文章,本篇来看下如何在scala中完成使用spark sql将不同日期的数据导入不同的es索引里面。首下看下用到的依赖包有哪些:elasticsearch-spark-20_2.11 5.3.2elasticsearch 2.3.4spark-sql_2.11 2.1.0spark-hive_2.11
2017-07-21 16:05:14 1696
在scala中使用spark sql解决特定需求(2)
接着上篇文章,本篇来看下如何在scala中完成使用spark sql将不同日期的数据导入不同的es索引里面。首下看下用到的依赖包有哪些:[code="java"]elasticsearch-spark-20_2.11 5.3.2elasticsearch 2.3.4spark-sql_2.11 ...
2017-07-21 16:00:18 264
原创 在scala中使用spark sql解决特定需求
spark sql一个强大之处就是能够嵌在编程语言内执行,比如在java或者scala,Python里面,正是因为这样的特性,使得spark sql开发变得更加有趣。 比如我们想做一个简单的交互式查询,我们可以直接在linux终端直接执行spark sql查询hive来分析,也可以开发一个jar来完成特定的任务。有些时候单纯的使用sql开发可能功能有限,比如我有下面的一个功能:一张
2017-07-20 19:57:42 681
在scala中使用spark sql解决特定需求
spark sql一个强大之处就是能够嵌在编程语言内执行,比如在java或者scala,Python里面,正是因为这样的特性,使得spark sql开发变得更加有趣。 比如我们想做一个简单的交互式查询,我们可以直接在linux终端直接执行spark sql查询hive来分析,也可以开发一个jar来完成特定的任务。有些时候单纯的使用sql开发可能功能有限,比如我有下面的一个功能:...
2017-07-20 19:53:44 635
原创 如何在kylin中构建一个cube
前面的文章介绍了Apache Kylin的安装及数据仓库里面的星型和雪花模型的概念,这篇文章我们来看下,如何构建一个kylin的cube进行查询。这里不得不吐槽一下Kylin的资料,少之又少出现问题网上基本找不到解决方案,所以想要学习kylin,建议大家买一本书系统的学习一下,这里推荐一本入门的书《基于Apache kylin构建大数据分析平台》,介绍的还可以。下面来看下如何构建一个cub
2017-07-11 19:22:30 758 3
如何在kylin中构建一个cube
[img]http://dl2.iteye.com/upload/attachment/0126/0223/215c1d98-1e2b-3b06-92c6-ae9bbec51591.png[/img]前面的文章介绍了Apache Kylin的安装及数据仓库里面的星型和雪花模型的概念,这篇文章我们来看下,如何构建一个kylin的cube进行查询。这里不得不吐槽一下Kylin的资料...
2017-07-11 19:06:48 192
原创 理解数据仓库中星型模型和雪花模型
在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。(一)星型模型图示如下:星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive时,经常会看到一些大宽表的原因
2017-07-06 18:32:27 38113 4
理解数据仓库中星型模型和雪花模型
在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。(一)星型模型图示如下: [img]http://my.csdn.net/uploads/201208/21/1345516634_6388.JPG[/img]星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维...
2017-07-06 17:29:49 1893
原创 Spark如何在一个SparkContext中提交多个任务
在使用spark处理数据的时候,大多数都是提交一个job执行,然后job内部会根据具体的任务,生成task任务,运行在多个进程中,比如读取的HDFS文件的数据,spark会加载所有的数据,然后根据block个数生成task数目,多个task运行中不同的进程中,是并行的,如果在同一个进程中一个JVM里面有多个task,那么多个task也可以并行,这是常见的使用方式。考虑下面一种场景,在HDF
2017-07-04 19:23:55 15935 9
Spark如何在一个SparkContext中提交多个任务
在使用spark处理数据的时候,大多数都是提交一个job执行,然后job内部会根据具体的任务,生成task任务,运行在多个进程中,比如读取的HDFS文件的数据,spark会加载所有的数据,然后根据block个数生成task数目,多个task运行中不同的进程中,是并行的,如果在同一个进程中一个JVM里面有多个task,那么多个task也可以并行,这是常见的使用方式。 考虑下面一种场景,在...
2017-07-04 19:09:03 703
protobuf-2.5.0.tar.gz
2015-06-24
luke4.5的jar包
2013-10-29
lucene的索引工具
2013-07-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人