![](https://img-blog.csdnimg.cn/2020010414410840.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
spark
fuzuxian
仰望星空,脚踏实地
展开
-
Spark初学: 相关小知识点
。。。。。。。。1) spark集群默认调度job的机制:FIFO( first in first out ) 队列模式2) 集群管理地址端口:SPARK_MASTER_PORT=7077webui端口: SPARK_MASTER_WEBUI_PORT=8080SPARK_WORKER_WEBUI_PORT=8081Spark-shell ——》 SparkSubmi...原创 2018-03-21 17:27:59 · 129 阅读 · 0 评论 -
SparkStreaming
/////、、、import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}object StreamingWC { def main(args: Array[String]): Unit = { // Strea...原创 2018-09-26 22:47:36 · 116 阅读 · 0 评论 -
Spark中的checkpoint作用与用法
转自大佬的博客: 感谢大佬checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完...转载 2018-09-20 09:35:11 · 207 阅读 · 0 评论 -
Spark——RDD算子
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html/////\\\\\\mapPartitionsWithIndexval rdd1=sc.parallelize(List(1,2,3,4,5,6,7,8,9),2)def myfunc(index: Int, iter: Iterator[(In...原创 2018-09-14 22:19:41 · 115 阅读 · 0 评论 -
Spark——计算用户在基站停留时间并排序
/home/hadoop/Data/logs/user.log15967170343,20180912082400,16030401EAFB68F1E3CDF819735E1C66,117606512176,20180912082500,16030401EAFB68F1E3CDF819735E1C66,115967170343,20180912170000,16030401EAFB6...原创 2018-09-14 22:16:11 · 861 阅读 · 0 评论 -
Spark宽窄依赖详解_
转自大佬的博客: https://blog.csdn.net/modefrog/article/details/79581770 1.宽窄依赖 图中左边是宽依赖,父RDD的4号分区数据划分到子RDD的多个分区(一分区对多分区),这就表明有shuffle过程,父分区数据经过shuffle过程的hash分区器(也可自定义分区器)划分到子RDD。例如Group...转载 2018-09-19 18:47:59 · 635 阅读 · 0 评论 -
Spark任务提交方式和执行流程
转载自大佬的博客: http://www.cnblogs.com/frankdeng/p/9301485.html 一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭Spa...转载 2018-09-19 15:18:04 · 631 阅读 · 0 评论 -
Spark操作数据库API
写入Mysql数据库import java.sql.{Connection, Date, DriverManager, PreparedStatement}import org.apache.spark.{SparkConf, SparkContext}object IPLocation { val data2MySQL = (iterator: Iterator[(String...原创 2018-09-18 21:38:49 · 422 阅读 · 0 评论 -
自定义排序——Spark
//////、、、、、、、object OrderContext { implicit val girlOrdering = new Ordering[Gril]{ override def compare(x:Gril, y:Gril): Int ={ if(x.facevalue > y.facevalue) 1 else if ( x.f...原创 2018-09-17 22:05:46 · 134 阅读 · 0 评论 -
Feature Extractors(特征提取)——Spark ML-2.3.0
这是Spark-2.3.0版本的例子1. TF-IDF(词频-逆向文档频率)import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}import org.apache.spark.sql.SparkSessionobject Tfld_feature { def main(args: Array[String]...原创 2018-11-09 19:31:39 · 713 阅读 · 0 评论