Spark
文章平均质量分 75
dufufd
这个作者很懒,什么都没留下…
展开
-
ClassNotFoundException: Failed to find data source: jdbc
Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: jdbc. Please find packages at http://spark.apache.org/third-party-projects.htmlThe question is almo转载 2018-02-07 15:38:56 · 5800 阅读 · 0 评论 -
Java Runtime.exec()的使用
Sun的doc里其实说明还有其他的用法:exec(String[] cmdarray, String[] envp, File dir)Executes the specified command and arguments in a separate process with the specified environment and working directory.转载 2017-05-26 16:07:01 · 710 阅读 · 0 评论 -
java.io.IOException: No FileSystem for scheme: hdfs
原创 2017-05-26 15:32:52 · 759 阅读 · 0 评论 -
Win下Eclipse提交hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=
http://blog.csdn.net/iquicksandi/article/details/7898790描述:在window下使用Eclipse进行Hadoop的程序编写,然后Run on hadoop 后,出现如下错误:11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_转载 2017-05-25 09:17:40 · 271 阅读 · 0 评论 -
Java Web提交参数到Spark集群执行任务
http://blog.csdn.net/nanphonfy/article/details/52423865提供一个API供使用者调用,大抵需求如下:输入某用户的位置(经纬度),提交到Web服务器,再把任务(找出该用户附近一公里内的商城推荐)提交到Spark集群上执行,返回计算结果后再存入到Redis数据库中,供后台调用返回结果给使用方。网转载 2017-05-25 09:13:02 · 2301 阅读 · 0 评论 -
Java Web提交任务到Spark Spark通过Java Web提交任务
http://blog.csdn.net/fansy1990/article/details/48001013相关软件版本:Spark1.4.1 ,Hadoop2.6,Scala2.10.5 , MyEclipse2014,intelliJ IDEA14,JDK1.8,Tomcat7机器:windows7 (包含JDK1.8,MyEclipse2014,In转载 2017-05-25 09:11:19 · 10829 阅读 · 2 评论 -
Submit a Spark job to YARN from code
http://blog.sequenceiq.com/blog/2014/08/22/spark-submit-in-java/In our previous Apache Spark related post we showed you how to write a simple machine learning job. In this post we’d like t转载 2017-05-25 09:07:28 · 787 阅读 · 0 评论 -
Spark源码系列(二)RDD详解
1、什么是RDD?上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。RDD的全名是Resilient Distributed Dataset,意思是容错的分布式数据集,每一个RDD都会有5个特征:1、有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。转载 2017-05-25 08:54:34 · 404 阅读 · 0 评论 -
Spark源码系列(一)spark-submit提交作业过程
http://www.cnblogs.com/cenyuhai/p/3775687.html前言折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个Driver Program的过程。转载 2017-05-25 08:52:56 · 545 阅读 · 0 评论 -
Spark java.lang.OutOfMemoryError: Java heap space
http://stackoverflow.com/questions/21138751/spark-java-lang-outofmemoryerror-java-heap-space?rq=1My cluster: 1 master, 11 slaves, each node has 6 GB memory.My settings:spark.executor.m转载 2017-05-18 10:49:19 · 2390 阅读 · 0 评论 -
Spark 中 map 与 flatMap 的区别
通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:步骤二:在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt步骤三:查看map函数的返回值得到map函数转载 2017-05-17 13:14:20 · 400 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2017-05-15 18:30:06 · 198 阅读 · 0 评论 -
取出大文件里面的一部分数据
取出大文件里面的一部分数据给你一个几g的数据,你是不容易处理的,一方面加载等处理过程较长,而且还很有可能导致你的电脑死机,或者spark-shell崩溃有两个方法可以选择:randomSplit filter方法一randomSplitscala> val t1=sc.textFile("/media/wangtuntun/DOWNLOAD/AAS_Trip/trip转载 2017-05-14 17:23:39 · 1580 阅读 · 0 评论 -
Java程序执行Linux命令
Java程序执行Linux命令http://blog.csdn.net/a19881029/article/details/8063758Java程序中要执行Linux命令主要依赖2个类:Process和Runtime首先看一下Process类:[plain] view plain copyProcessBuild转载 2017-05-26 16:08:24 · 475 阅读 · 0 评论 -
Intellij IDEA 添加jar包的三种方式
一.直接复制:(不推荐)方法:直接将硬盘上的jar包复制粘贴到项目的lib目录下即可。注意:1.对于导入的eclipse项目,该方式添加的jar包没有任何反应,用make编译项目会报错2.对于在idea中创建的项目,该方式添加jar包,编译不报错,但是打开Structure会有"...jar ... is missing ..."的提示,需要点击"Fix"或红灯泡解决。转载 2017-05-31 09:29:58 · 4795 阅读 · 0 评论 -
rdd和DF数据存入MYSQL
http://blog.csdn.net/dabokele/article/details/528021501.通过RDD函数批量存入数据[java] view plain copyobject RDDtoMysql { def myFun(iterator: Iterator[(String, Int)]): Unit = { var conn: Connection = nul转载 2018-01-19 08:56:17 · 578 阅读 · 0 评论 -
x::y::Nil
val x=1val y=2val l = x::y::Nill: List[Int] = List(1, 2)作用就是构造一个列表,第一个元素为x,第二个元素为y,然后就结束初学Scala的人都会被Seq的各种操作符所confuse。下面简单列举一下各个Seq操作符的区别。 4种操作符的区别和联系:: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用法为 x::list,其转载 2018-01-19 09:18:27 · 307 阅读 · 0 评论 -
SPARK SQL - update MySql table using DataFrames and JDBC
I'm trying to insert and update some data on MySql using Spark SQL DataFrames and JDBC connection.I've succeeded to insert new data using the SaveMode.Append. Is there a way to update the data already转载 2018-01-19 08:52:48 · 2937 阅读 · 0 评论 -
RDD DataFrame DataSet 区别和转换
RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。RDD和DataFrameRDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解 Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚转载 2018-01-18 09:11:36 · 7444 阅读 · 2 评论 -
SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext
SparkSession就是设计出来合并SparkContext和SQLContext的。我建议能用SparkSession就尽量用。如果发现有些API不在SparkSession中,你还是可以通过SparkSession来拿到SparkContext和SQLContex的。SparkSession-Spark的一个全新的切入点 SparkSession是Spark 2.0引如的新概念。Spa转载 2018-01-17 19:09:26 · 2801 阅读 · 0 评论 -
graphx 基础算法
1. PageRankhttp://blog.csdn.net/hguisu/article/details/7996185 2. Connected Components 3. Triangle Counting 例子:users.txt123456转载 2018-01-23 09:29:22 · 1417 阅读 · 0 评论 -
Graph.fromEdges(edges, "defaultProperty") Graph.fromEdgeTuples
package vinnie.poohimport org.apache.spark.SparkContext._import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject Main { def main(args: Array[String]) {转载 2018-01-23 09:21:28 · 1939 阅读 · 0 评论 -
Spark集群无法停止的原因分析和解决
今天想停止spark集群,发现执行stop-all.sh的时候spark的相关进程都无法停止。提示:no org.apache.spark.deploy.master.Master to stopno org.apache.spark.deploy.worker.Worker to stop上网查了一些资料,再翻看了一下stop-all.sh,stop-master.sh,转载 2017-07-19 15:00:47 · 860 阅读 · 0 评论 -
java.io.IOException: No FileSystem for scheme: hdfs
java.io.IOException: No FileSystem for scheme: hdfs在这篇文章中,介绍了如何将Maven依赖的包一起打包进jar包。使用maven-assembly打成jar后,将这个jar提供给其他工程引用的时候,报出如下错误:log4j:WARN No appenders could be found for logger (org.a转载 2017-07-05 11:16:48 · 9080 阅读 · 0 评论 -
map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValueshttp://blog.csdn.net/guotong1988/article/details/50555185map(function) map是对RDD中的每个元素都执行转载 2017-06-02 09:27:47 · 396 阅读 · 0 评论 -
windows 下 MyEclipse 运行hadoop 出错
信息: Cleaning up the staging area file:/tmp/hadoop-huan.liu/mapred/staging/huan.liu-789127983/.staging/job_local_0004java.lang.RuntimeException: Error while running command to get file permissions :转载 2017-05-31 14:02:46 · 1296 阅读 · 0 评论 -
intellij 出现“Usage of API documented as @since 1.8+”的解决办法
intellij 出现“Usage of API documented as @since 1.6+”的解决办法Usage of API documented as @since 1.6+ This inspection finds all usages of methods that have @since tag in their documentation. Th转载 2017-05-31 10:08:02 · 7212 阅读 · 0 评论 -
将rdd存储到本地的一个文件中
有时候我们要将一个很大的rdd文件存储到本地,都会用 saveAsTextFile(path)但是发现数据被存储为几个文件(部分)一般是执行多少task就会保存多少文件这是为了更好的进行并行操作但是你非的要存成一个文件,也是可以的data.coalesce(1,true).saveAsTextFile("/home/wangtuntun/saveAsSing转载 2017-05-14 17:19:21 · 6563 阅读 · 0 评论 -
Spark算子:RDD行动Action操作(2)–take、top、takeOrdered
takedef take(num: Int): Array[T]take用于获取RDD中从0到num-1下标的元素,不排序。scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] at makeRDD a转载 2017-05-14 14:53:42 · 565 阅读 · 0 评论 -
spark性能调优:资源优化
http://blog.csdn.net/lw_ghy/article/details/51419977在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源转载 2017-04-28 10:37:16 · 428 阅读 · 0 评论 -
浅谈Spark几种不同的任务提交相关脚本(以Spark 1.5.0为例)
本节主要内容spark-shellspark-submitspark-sqlspark-class总结1. spark-shellSpark-shell脚本文件内容如下:#!/usr/bin/env bash## Licensed to the Apache Software Foundation (ASF) under one or more# contr转载 2016-11-24 14:49:01 · 535 阅读 · 0 评论 -
Submitting Applications
Submitting ApplicationsThe spark-submit script in Spark’s bin directory is used to launch applications on a cluster. It can use all of Spark’s supported cluster managersthrough a uniform int转载 2016-11-24 14:41:12 · 593 阅读 · 0 评论 -
Spark2 文件处理和jar包执行
Spark2 文件处理和jar包执行上传数据文件mkdir -p data/ml/hadoop fs -mkdir -p /datafile/wangxiao/hadoop fs -ls /hadoop fs -put /home/wangxiao/data/ml/Affairs.txt /datafile/wangxiao/hadoop fs -ls -R /da转载 2016-11-24 13:59:12 · 933 阅读 · 0 评论 -
用hadoop运行一个简单程序WordCount
1、在hadoop目录下面新建两个文件夹,随便输入一些语句2、在HDFS上创建输入文件夹呼出终端,输入下面指令(要在/usr/Hadoop/hadoop0.21.0/目录下):bin/hadoop fs -mkdir hdfsInput执行这个命令时可能会提示类似安全的问题,如果提示了,请使用bin/hadoop dfsadmin -safemode原创 2016-11-24 11:00:00 · 505 阅读 · 0 评论 -
【Hadoop】用web查看hadoop运行状态
我们安装完hadoop,下面我们从视觉上看看hadoop怎么玩的。 我们可以在win7系统上,通过web界面,在浏览器地址栏输入地址,直接查看hadoop的运行情况; 10.10.11.191:50030这个里面,我们可以看到Map/Reduce的管理情况 10.10.11.191:50070这里可以看到HDFS的管转载 2016-11-22 10:49:42 · 2112 阅读 · 0 评论 -
spark-env.sh配置
SPARK_MASTER_PORT 从另外一个端口启动master(默认: 7077)SPARK_MASTER_WEBUI_PORT Master的web UI端口 (默认: 8080),这个端口太常用,建议换一个SPARK_WORKER_PORT 启动Spark worker 的专用端口(默认:随机)SPARK_WORKER_DIR 伸缩空间转载 2016-11-22 10:10:14 · 5915 阅读 · 0 评论 -
yarn-site.xml相关配置参数
机器总共16G内存,sqoop导入数据时大约需要2G左右mapred-site.xmlconfiguration> property> name>mapreduce.framework.namename> value>yarnvalue> property> property> name>mapreduce.jo原创 2016-11-22 09:26:39 · 3989 阅读 · 0 评论 -
Spark-submit提交任务到集群
1 IDEA 打包示例代码参考AMPCamp2015之SparkSQL,开发环境使用idea。首先需要将程序打包成jar选择project structure --》artifacts ,由于集群已经有了运行依赖的jar包,打包时可以将这些jar包排除出去,以减小打包后的jar包的大小。点击ok,然后选择build --》build artifacts,转载 2016-11-17 16:57:20 · 434 阅读 · 0 评论 -
【没有assembly目录】spark2.0.0启动时无法访问spark-assembly-*.jar的解决办法
1、问题描述 自从spark2.0.0发布之后,每次启动hive的时候,总会发现一个小问题,启动 hive --service metastore的时候,会报一个小BUG: 无法访问/lib/spark-assembly-*.jar分析其源码架构,发现主要原因是:在//bin/hive文件中,有这样的命令:加载spark中相关的JAR包。 但是spark升级到spa转载 2016-11-17 15:47:25 · 6804 阅读 · 0 评论 -
yarn-cluster 和yarn-client区别
摘要在Spark中,有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上,通常Yarn-cluster适用于生产环境,而Yarn-Cluster更适用于交互,调试模式,以下是它们的区别 Spark插拨式资源管理Spark支持Yarn,Mesos,Standalone三种集群部署模式,它们的共同点:Master服务(Yarn Resource转载 2016-11-17 15:19:58 · 6387 阅读 · 0 评论