spark
文章平均质量分 89
fansy1990
这个作者很懒,什么都没留下…
展开
-
Spark jar not loaded. Offending class: javax/servlet/Servlet.class
部署Tomcat,运行java web程序调用Spark,执行Scala开发的Spark程序。并且提交任务到Yarn集群,使用yarn-client(或yarn-cluster)的模式,即Spark on YARN的模式。 部署过程以及遇到问题及解决方法原创 2015-09-16 17:01:13 · 3969 阅读 · 4 评论 -
Centos6安装TensorFlow及TensorFlowOnSpark
1. 需求描述在Centos6系统上安装Hadoop、Spark集群,并使用TensorFlowOnSpark的 YARN运行模式下执行TensorFlow的代码。(最好可以在不联网的集群中进行配置并运行)2. 系统环境(拓扑)操作系统:Centos6.5 Final ; Hadoop:2.7.4 ; Spark:1.5.1-Hadoop2.6; TensorFlow 1.3.0;TensorFl原创 2017-10-27 23:51:28 · 1937 阅读 · 0 评论 -
Java连接Spark Standalone集群
软件环境:spark-1.6.3-bin-hadoop2.6、hadoop-2.6.4、jdk1.7.0_67、IDEA14.1.5 ;Hadoop集群采用伪分布式安装,运行过程中只启动HDFS;Spark只启动一个Worker;使用虚拟机搭建Hadoop、Spark集群;Idea直接安装在Win10上;192.168.128.128是虚拟机ip;本机ip是:192.168.0.183;Java连原创 2017-07-06 14:13:30 · 7929 阅读 · 0 评论 -
Spark On YARN内存和CPU分配
本篇博客参考:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本:CDH:5.7.2,JDK:1.7;问题描述:在使用Spark On YARN时(无论是Client模式或者是Cluster模式,当然下面会有这种模式的对比区别),可以添加诸如:--executor-memory翻译 2017-01-10 17:17:15 · 21506 阅读 · 2 评论 -
MAC Spark no snappyjava in java.library.path
软件版本:Mac:10.12.1,Spark:1.6.0-cdh5.7.3,JDK:1.7.0_79 ; IDEA:14;问题描述:在Mac上运行Spark程序时(采用local 生成SparkContext的方式,具体参考:https://github.com/fansy1990/Spark_MLlib_Algorithm_1.6.0/blob/master/src/test/scala/com原创 2016-12-31 11:37:35 · 3029 阅读 · 3 评论 -
Spark TopK问题解法
软件版本及平台:CDH5.8、四子节点(cpu:2核、内存:4G)、JDK:1.7、IDEA14 、 Spark:1.6.0-cdh5.7.3;代码下载:问题描述:现有用户项目评分数据,其格式如下所示:u1,item1,0.0913375062480507u2,item1,0.4061823571029518u3,item1,0.021727289053235843u4,item1,0.24原创 2016-12-15 22:44:50 · 3773 阅读 · 0 评论 -
Spark读写Hive添加PMML支持
软件版本:CDH:5.8.0;Hadoop:2.6.0 ; Spark:1.6.0; Hive:1.1.0;JDK:1.7 ; SDK:2.10.6(Scala)目标:在Spark加载PMML文件处理数据(参考:http://blog.csdn.net/fansy1990/article/details/53293024)及Spark读写Hive(http://blog.csdn.net/fans原创 2016-12-03 15:49:45 · 3864 阅读 · 0 评论 -
Spark加载PMML进行预测
软件版本:CDH:5.8.0 , CDH-hadoop :2.6.0 ; CDH-spark :1.6.0 目标:使用Spark 加载PMML文件到模型,并使用Spark平台进行预测(这里测试使用的是Spark on YARN的方式)。具体小目标:1. 参考https://github.com/jpmml/jpmml-spark 实现,能运行简单例子;2. 直接读取HDFS上面的输入数据文件,使用原创 2016-11-25 22:28:05 · 19318 阅读 · 2 评论 -
Java Web提交任务到Spark
1. windows简单java程序调用Spark,执行Scala开发的Spark程序,这里包含两种模式: 1> 提交任务到Spark集群,使用standAlone模式执行; 2> 提交任务到Yarn集群,使用yarn-client的模式;2. windows 开发java web程序调用Spark,执行Scala开发的Spark程序,同样包含两种模式,参考1.3. linux运行java web程序调用Spark,执行Scala开发的Spark程序,包含两种模式,参考1.原创 2015-08-26 12:51:17 · 22031 阅读 · 16 评论 -
Spark ALS算法推荐结果一样?
在进行Spark ALS算法进行试验的时候发现模型对所有用户其推荐结果是一样的,即针对所有用户建模得到的模型对其推荐的项目是一样的,只是评分有比较小的差异。下面就分3个部分来进行分析,分别是实验过程及结果描述,ALS算法原理,问题分析及解决。实验过程及结果此部分参考:https://databricks-training.s3.amazonaws.com/movie-recommendation-原创 2016-10-05 16:41:12 · 8791 阅读 · 13 评论 -
基于Spark ALS在线推荐系统
所用技术:Bootstrap、flat-ui 、 Servlet、Spark1.4.1、Hadoop2.6.0、JDK说明:本系统不涉及ssh相关内容,只有简单的Servlet和JSP、HTML页面,系统架构相对简单。系统部署:1. 拷贝spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目录;(spark-assembly-1.4原创 2016-08-23 14:18:46 · 17511 阅读 · 16 评论 -
Oozie4.2.0配置安装实战
软件版本:Oozie4.2.0,Hadoop2.6.0,Spark1.4.1,Hive0.14,Pig0.15.0,Maven3.2,JDK1.7,zookeeper3.4.6,HBase1.1.2,MySQL5.6集群部署:node1~4.centos.com node1~4 192.168.0.31~34 1G*4 内存 1核*4 虚拟机node1:N原创 2016-01-23 23:44:39 · 7850 阅读 · 9 评论 -
Java Web提交任务到Spark Standalone集群并监控
Java Web提交任务到Spark Standalone集群并监控环境工程下载路径Spark任务提交流程问题及问题解决后记Java Web提交任务到Spark Standalone集群并监控1. 环境 软件 版本 备注 IDEA 14.1.5 JDK 1.8 Spark 1.6.0 工程maven引用 Spark cdh5.7.3原创 2017-11-16 16:29:21 · 6148 阅读 · 13 评论