spark
文章平均质量分 75
深海小黄鱼
这个作者很懒,什么都没留下…
展开
-
windows下安装配置spark
安装时一定要注意版本的对应,尤其下载官方scala的编辑器ScalaIDE for Eclipse时注意scala版本和java版本,同样是1.8也会有问题,查看它对应的具体哪一个由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,H原创 2017-01-12 14:52:34 · 2739 阅读 · 0 评论 -
spark mllib机器学习之七 TFIDF
package com.agm.FeatureExtractorsimport org.apache.spark.ml.feature.{ HashingTF, IDF, Tokenizer }import org.apache.spark.{ SparkConf, SparkContext }import org.apache.spark.mllib.classification.{原创 2017-03-14 15:55:51 · 1059 阅读 · 0 评论 -
spark入门实例 wordCount
数据格式:撒地方 213萨芬 123657 jhkjhk萨芬 123gjh 123意图以 2354萨芬 123package com.agm.wordsimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.原创 2017-03-14 15:57:26 · 743 阅读 · 0 评论 -
spark连接Oracle
引入oracle的jar包package com.agm.databaseimport java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{ SparkConf, SparkContext }import org.apache.log4j.{ Level, L原创 2017-03-14 16:05:02 · 5886 阅读 · 0 评论 -
spark连接mysql
引入mysql的jar包package com.agm.databaseimport java.sql.DriverManagerimport org.apache.spark.SparkContextimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.SparkConfimport org.原创 2017-03-14 16:02:36 · 1132 阅读 · 0 评论 -
eclipse spark源码编译部署
1.安装Scala2.安装sbt3.安装Scala IDE http://scala-ide.org/download/current.html (要注意eclipse和Scala IDE的版本匹配问题,网页上有说明)4.下载Spark源代码: Git中运行 D:\Spark\gitCode> git clone https://github.com/apach原创 2017-03-14 15:16:36 · 1297 阅读 · 0 评论 -
RDD、DataFrame和DataSet的区别
转自: http://www.jianshu.com/p/c0181667daa0RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。RDD和DataFrameRDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,转载 2017-05-18 15:36:02 · 383 阅读 · 0 评论 -
Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据转载 2017-06-01 17:31:18 · 428 阅读 · 0 评论 -
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2017-06-01 17:32:46 · 299 阅读 · 0 评论 -
Spark性能优化:数据倾斜调优
前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此转载 2017-06-01 17:34:54 · 348 阅读 · 0 评论 -
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占转载 2017-06-01 17:35:57 · 417 阅读 · 0 评论 -
spark rdd 自动分区
spark (key,value)类型的rdd才会有partitionby函数rdd的运算都是以partition作为单位,合理的partition分配将会极大提高运算速度另一篇博客中写到:我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略(这两种分区的代码解析可以参见:《Spark分区器HashPartitioner和Ran原创 2017-07-28 08:52:27 · 908 阅读 · 0 评论 -
spark mllib机器学习之六 ALS
协同过滤采用音乐推荐的数据http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz package com.agm.practiceimport java.io.Fileimport org.apache.spark.SparkConfimport org.apache.原创 2017-03-14 15:52:06 · 676 阅读 · 0 评论 -
spark mllib机器学习之五 LinearRegressionWithSGD
数据格式:8,1 5 2125,90 30 50,0 0 092,22 50 20999,333 333 33350,12 26 1260,25 25 108,1 5 2867,537 97 233672,55 216 4011672,521 576 5752229,699 799 7311279,695 434 150p原创 2017-03-14 15:45:46 · 3775 阅读 · 0 评论 -
spark mllib机器学习之四 kmeans
数据格式:package com.agm.kmeansimport java.io.Fileimport java.io.PrintWriterimport java.io.Fileimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apa原创 2017-03-14 15:39:21 · 410 阅读 · 0 评论 -
spark RDD操作map与flatmap的区别
以前总是分不清楚spark中flatmap和map的区别,现在弄明白了,总结分享给大家,先看看flatmap和map的定义。map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD有些拗口,看看例子就明白了。val rdd = sc.parallelize(List("coffee转载 2017-02-25 15:07:19 · 9338 阅读 · 2 评论 -
python 调用spark
1. 下载安装 spark2. 下载安装python3. 创建环境变量 spark_home D:\Spark\spark-2.0.1-bin-hadoop2.64. 将路径D:\Spark\spark-2.0.1-bin-hadoop2.6\python\pyspark加入环境变量5. 将D:\Spark\spark-2.0.1-bin-hadoop2.6 下的pyspark原创 2017-01-23 08:57:52 · 6035 阅读 · 0 评论 -
R 连接Sprak
sparklyr: R interface for Apache SparkConnect to Spark from R. The sparklyr package provides a complete dplyr backend.Filter and aggregate Spark datasets then bring them into R for analysi转载 2017-01-22 09:23:57 · 1210 阅读 · 0 评论 -
spark Error initializing SparkContext System memory 466092032 must be at least 471859200.
ERROR SparkContext: Error initializing SparkContext.Java.lang.IllegalArgumentException: System memory 259522560 must be at least 4.718592E8. Please use a larger heap size.在Eclipse里转载 2017-01-20 14:42:20 · 6477 阅读 · 0 评论 -
spark MLlib、ML机器学习之Logistic回归
由于程序中还有其他功能,这里只列出了logistic回归的部分,因此引入了一些不需要的包,这里引用了一些网上的资源import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfimport org.apache.spark.sql.原创 2017-01-14 09:18:00 · 1469 阅读 · 0 评论 -
spark ubuntu 分部署安装配置
1. 概述(spark2.1.0和这个配置过程相似,有些步骤可以省去,已经标注了)本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38转载 2017-01-14 09:01:11 · 1278 阅读 · 0 评论 -
Spark 体系架构
最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读完他的 “spark-architecture” 这篇博文,有种醍醐灌顶的感觉,从JVM内存分配到Spark集群的资源管理,步步深入,感触颇多。因此,在周末的业余时间里,将此文的核心内容译成中文,并在这里与大家分享。如在翻译过程中有文字上的表转载 2017-03-18 15:17:45 · 399 阅读 · 0 评论 -
Windows下搭建Spark+Hadoop开发环境
Windows下搭建Spark+Hadoop开发环境需要一些工具支持。 只需要确保您的电脑已装好Java环境,那么就可以开始了。 一. 准备工作1. 下载Hadoop2.7.1版本(写Spark和Hadoop主要是用到了Yarn,因此Hadoop必须安装)下载地址:http://apache.fayea.com/hadoop/common/hadoo转载 2017-02-27 09:59:08 · 3213 阅读 · 0 评论 -
spark mllib机器学习之一 LogisticRegressionWithLBFGS
数据格式:(0,[1,1,1,0,1,1,1])(1,[0,0,1,0,0,1,0])(2,[1,0,1,1,1,0,1])(3,[1,0,1,1,0,1,1])(4,[0,1,1,1,0,1,0])(5,[1,1,0,1,0,1,1])(6,[1,1,0,1,1,1,1])(7,[1,0,1,0,0,1,0])(8,[1,1,1,1,1,1,1])(9,[原创 2017-03-14 15:23:28 · 2985 阅读 · 1 评论 -
spark mllib机器学习之二 DecisionTree
数据格式:1 1:2 2:3 3:42 1:1 2:2 3:31 1:1 2:3 3:31 1:3 2:1 3:31 1:4 2:6 3:72 1:1 2:5 3:51 1:3 2:3 3:31 1:3 2:2 3:31 1:4 2:3 3:42 1:2 2:6 3:61 1:1 2:7 3:31 1:4 2:1 3:21 1:3 2:3 3:7原创 2017-03-14 15:27:35 · 540 阅读 · 0 评论 -
spark mllib机器学习之三 FPGrowth
数据格式:苹果 梨 香蕉梨 牛奶 土豆苹果 香蕉 狗狗 土豆土豆 牛奶 盐盐 梨 狗苹果 梨 狗package com.agm.guanlianimport org.apache.spark.mllib.fpm.FPGrowthimport org.apache.spark.{SparkConf, SparkContext}import ja原创 2017-03-14 15:32:24 · 1152 阅读 · 0 评论 -
spark streaming案例整理
scala程序实现,接收一个端口发来的信息:端口信息使用模拟程序来实现一个端口发来的信息。代码如下:程序生成A-G的随机字母 importjava.io.PrintWriterimportjava.net.ServerSocketclassLoggerSimulation { }obje原创 2017-07-28 09:17:55 · 328 阅读 · 0 评论