fansy1990的专栏

一日一积累

排序:
默认
按更新时间
按访问量

Spark DataFrame vector 类型存储到Hive表

Spark DataFrame vector 类型存储到Hive表 Spark DataFrame vector 类型存储到Hive表 软件版本 场景描述 问题的迂回解决方法 示例 1. 软件版本 软件 版本 Spark 1.6.0 H...

2018-02-24 10:20:44

阅读数:339

评论数:0

Spark ClassNotFoundException $$anonfun$2

Spark ClassNotFoundException $$anonfun$2 1. 软件环境: 软件 版本 Spark 原生1.6.0 Hadoop 原生2.6.5 2. 应用场景&问题描述 使用Java Web提交任务到S...

2018-01-25 11:05:15

阅读数:168

评论数:0

SparkSQL read Elasticsearch ClassNotFoundException

环境 软件 版本 Elasticsearch 2.3.3 spark cdh-1.6.0 idea 2016 问题描述:现在有一个Elasticsearch集群,需要使用SparkSQL直接连接进行读取,参考Elasticsearch官网代码,直接编写下面的程序进行读...

2017-11-28 11:05:19

阅读数:469

评论数:0

Java Web提交任务到Spark Standalone集群并监控

Java Web提交任务到Spark Standalone集群并监控 环境 工程下载路径 Spark任务提交流程 问题及问题解决 后记Java Web提交任务到Spark Standalone集群并监控1. 环境 软件 版本 备注 IDEA 14.1.5 JDK 1...

2017-11-16 16:29:21

阅读数:1399

评论数:3

TensorFlowOnSpark stuck

问题描述:在使用TensorFlowOnSpark做测试的时候,发现任务,老是卡着并没有实际的运行。解决方法:1. 由于我使用的是自编译的TensorFlow,当时编译的时候有一个enable HDFS,默认是false,所以再次编译了一遍,把对应的HDFS enable设置为了true;2. 没...

2017-10-31 13:39:38

阅读数:373

评论数:0

Centos6安装TensorFlow及TensorFlowOnSpark

1. 需求描述在Centos6系统上安装Hadoop、Spark集群,并使用TensorFlowOnSpark的 YARN运行模式下执行TensorFlow的代码。(最好可以在不联网的集群中进行配置并运行)2. 系统环境(拓扑)操作系统:Centos6.5 Final ; Hadoop:2.7.4...

2017-10-27 23:51:28

阅读数:674

评论数:0

Spark应用HanLP对中文语料进行文本挖掘--聚类

软件:IDEA2014、Maven、HanLP、JDK;用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;用到的数据集:http://www.threedweb.cn/thread-1288-1-1.html(不需要下载,已经包含在工...

2017-08-25 17:41:43

阅读数:2132

评论数:3

Matlab计算字符串相似度

运行环境:Matlab单纯的计算字符串的相似度,并没有计算词性,如TF-IDF之类的;代码如下:%计算字符串相似度 %一个source字符串通过插入、删除、替换而变成target字符串的操作次数越少,则两个字符串越相近。 function strsim = mystrsim(target,sour...

2017-08-22 09:26:58

阅读数:709

评论数:0

CDH HiveServer2异常退出

本篇参考:http://blog.csdn.net/gklifg/article/details/50418109、http://blog.csdn.net/levy_cui/article/details/53992402、http://blog.csdn.net/lulynn/article/...

2017-07-10 14:09:24

阅读数:1061

评论数:0

Java连接Spark Standalone集群

软件环境:spark-1.6.3-bin-hadoop2.6、hadoop-2.6.4、jdk1.7.0_67、IDEA14.1.5 ;Hadoop集群采用伪分布式安装,运行过程中只启动HDFS;Spark只启动一个Worker;使用虚拟机搭建Hadoop、Spark集群;Idea直接安装在Win...

2017-07-06 14:13:30

阅读数:2064

评论数:0

Hive性能调优

软件环境:Hive1.2.1 /Hadoop2.6.4 ;直接使用Hive Cli模式运行;1. 设置执行引擎set hive.execution.engine=mr; set hive.execution.engine=spark;如果设置执行引擎为mr,那么就会调用Hadoop的maprecu...

2017-07-01 17:51:20

阅读数:4402

评论数:0

Spark SQL filter not contains

软件环境:CDH5.8.0;问题:在使用Spark SQL 读取Hive进行操作的时候,需要使用不包含,如下:(在Spark SQL中有contains,like,rlike函数)在Hive中有表id_url ,内容如下:+------------+------------------------...

2017-05-23 21:21:47

阅读数:1963

评论数:0

Spark DecisionTreeModel print

软件版本:   Spark:1.6.1 ; 问题1:在进行Spark DecisionTree建模时(做分类),可以打印决策树。当然,使用该模型的toDebugString 可以打印类似下面的字符串,例如:DecisionTreeModel classifier of depth 7 with 4...

2017-04-26 16:17:37

阅读数:804

评论数:0

Tomcat Sqoop import异常及其解决方法

软件版本:Sqoop:1.4.6-cdh5.7.3,tomcat:7,JDK:1.7,Intellij Idea 2014 , Hadoop集群:CDH5.7.3;mysql:5.6;问题描述:在使用Sqoop的API操作数据从Mysql表导入到HDFS的时候,如果直接使用Java程序,那么是可以...

2017-03-17 21:19:59

阅读数:909

评论数:0

Spark MLlib算法调用展示平台及其实现过程

1. 软件版本:IDE:Intellij IDEA 14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;(使用的是C...

2017-03-17 12:57:36

阅读数:5415

评论数:10

Spark On YARN内存和CPU分配

本篇博客参考:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本:CDH:5.7.2,JDK:1.7;问题描述:在使用Spark On YARN时(无论是Client模式或者是C...

2017-01-10 17:17:15

阅读数:8695

评论数:2

Windows Spark On YARN 提交任务到CDH集群

软件版本:IDE:Intellij IDEA 14,Java:1.7,Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;部署环境:1. 在Windows10 上启动...

2017-01-05 18:20:10

阅读数:2570

评论数:0

MAC Spark no snappyjava in java.library.path

软件版本:Mac:10.12.1,Spark:1.6.0-cdh5.7.3,JDK:1.7.0_79 ; IDEA:14;问题描述:在Mac上运行Spark程序时(采用local 生成SparkContext的方式,具体参考:https://github.com/fansy1990/Spark_M...

2016-12-31 11:37:35

阅读数:1599

评论数:2

Oozie Spark on YARN requirement failed

软件环境:CDH:5.7.3;Oozie:4.1.0-CDH5.7.3 ; Spark:1.6.0-cdh5.7.3-hadoop2.6.0-cdh5.7.3 ; Hadoop:hadoop2.6.0-cdh5.7.3(HDFS 采用HA方式);问题描述:在使用CDH5.7.3版本的时候,发起一个...

2016-12-24 10:37:02

阅读数:3652

评论数:1

Spark TopK问题解法

软件版本及平台:CDH5.8、四子节点(cpu:2核、内存:4G)、JDK:1.7、IDEA14 、 Spark:1.6.0-cdh5.7.3;代码下载:问题描述:现有用户项目评分数据,其格式如下所示:u1,item1,0.0913375062480507 u2,item1,0.406182357...

2016-12-15 22:44:50

阅读数:1493

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭