在Kettle(PDI)跑Apache Spark作业

最新推荐文章于 2024-01-11 14:02:30 发布

qq85609655

最新推荐文章于 2024-01-11 14:02:30 发布

阅读量224

点赞数

分类专栏： hadoop 文章标签：大数据

hadoop 专栏收录该内容

52 篇文章 0 订阅

订阅专栏

原创文章，转载请注明出处：http://qq85609655.iteye.com/blog/2205156

hadoop上要跑Apache Spark作业

使用的ETL工具是Kettle(PDI)

目前能够执行像mapreduce一样执行作业，插件以及demo在附近中

将附件解压

使用Apache Spark最大的原因是基于内存运算速度较快，性能较好，在实际应用中，Hive的使用范围比较广，需要将Hive基于Mapreduce的运算引擎切换为Apache Spark，在Apache Spark安装好后，执行如下命令，启动SparkSQL thrift JDBC/ODBC Server

./sbin/start-thriftserver.sh --master yarn --executor-memory 512m --hiveconf hive.server2.thrift.port=10050

使用Hive Driver JDBC连接SparkSQL和查询数据

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq85609655

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在Kettle(PDI)跑Apache Spark作业

原创文章，转载请注明出处：http://qq85609655.iteye.com/blog/2205156 hadoop上要跑Apache Spark作业使用的ETL工具是Kettle(PDI) 目前能够执行像mapreduce一样执行作业，插件以及demo在附近中将附件解压使用Apache Spark最大的原因是基于内存运算速度较快，性能较好，在实际...
复制链接

扫一扫