2016年06月_Rich_Billions

11月 10月 09月 08月 07月 06月 01月

转载 Spark streaming+kafka实战教程

本文转载请自：http://qifuguang.me/2015/12/24/Spark-streaming-kafka实战教程/ 概述 Kafka是一个分布式的发布-订阅式的消息系统，简单来说就是一个消息队列，好处是数据是持久化到磁盘的（本文重点不是介绍kafka，就不多说了）。Kafka的使用场景还是比较多的，比如用作异步系统间的缓冲队列，另外，在很多场景下，我们都会如如下的

2016-06-22 16:28:28 7201 2

原创 spark 开发遇到问题

1.java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class 解决方法：更换scala的版本

2016-06-15 11:36:15 465

转载 Spark On Yarn：提交Spark应用程序到Yarn

转载自：http://lxw1234.com/archives/2015/07/416.htm 关键字：Spark On Yarn、Spark Yarn Cluster、Spark Yarn Client Spark On Yarn模式配置非常简单，只需要下载编译好的Spark安装包，在一台带有Hadoop Yarn客户端的机器上解压，简单配置之后即可使用。要把Spark应用程序

2016-06-13 09:44:06 1828

转载 SparkSQL On Yarn with Hive，操作和访问Hive表

转载自：http://lxw1234.com/archives/2015/08/466.htm 本文将介绍以yarn-cluster模式运行SparkSQL应用程序，访问和操作Hive中的表，这个和在Yarn上运行普通的Spark应用程序有所不同，重点是需要将Hive的依赖包以及配置文件传递到Driver和Executor上，因为在yarn-cluster模式下，Driver和Executor

2016-06-13 09:39:42 1661

原创 sqoop把hive数据导入到DB2

sqoop export --connect jdbc:db2://IP地址:60000/数据库名称 --username DB2安装系统登录用户名 --password DB2安装系统登录密码 --table DB2表名 --export-dir /apps/hive/warehouse/ hive表的路径 -m 4 4个map任务 --null-string '\\N

2016-06-12 17:07:32 3287

原创搭建sbt

1.下载sbt-0.13.11.zip包或者sbt-0.13.11.msi安装包，解压到方便的文件路径：D:\sbt2 2.配置D:\sbt2\conf文件sbtconfig.txt，指定本地的数据仓库 -Dsbt.boot.directory=d:/sbt2/boot/ -Dsbt.ivy.home=d:/sbt2/ 3.配置环境变量PATH ，添加D:\sbt2\bin 4.使用sb

2016-06-01 15:23:42 1595