Spark
清风千雨
大数据,java后端
展开
-
Spark直连kafka 0.10版本
新版本和老版本区别之前老版本通过直连维护偏移量使用的Api和新版的不一样,老版本不自行维护偏移量的话是自动维护到zk中新版会把偏移量维护到kafka中老版本实现https://blog.csdn.net/qq_33598343/article/details/87905091新版本实现https://www.it610.com/article/1288775916218032128.htm...原创 2020-08-19 23:49:33 · 363 阅读 · 0 评论 -
Unable to instantiate SparkSession with Hive support because Hive classes are not found
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive --><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactI...转载 2020-03-06 20:52:13 · 435 阅读 · 0 评论 -
spark sql on hive配置及其使用
https://blog.csdn.net/a11a2233445566/article/details/54633033?utm_source=distribute.pc_relevant.none-task转载 2020-02-20 00:15:49 · 633 阅读 · 0 评论 -
Spark窗口操作
窗口操作窗口:对落在窗口内的数据进行处理,也是一个DStream,RDD举例:每10秒钟把过去30秒的数据采集过来代码实现窗口滑动距离(reducebykeyandwindow的参数)必须是采样时间的整数倍(steamingcontext的参数)业务场景1.计算一天内接口的调用次数窗口滑动距离:1天...原创 2019-07-15 23:36:30 · 271 阅读 · 0 评论 -
Spark性能调优
Spark 调优Spark 性能优化概览:Spark的计算本质是,分布式计算。所以,Spark程序的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者内存。CPU、网络带宽,是运维来维护的。聚焦点:内存。如果内存能够容纳下所有的数据,那就不需要调优了。如果内存比较紧张,不足以放下所有数据(10亿量级---500G),需要对内存的使用进行性能优化。比如:使用某些方法减少...原创 2019-05-19 15:52:37 · 280 阅读 · 0 评论 -
spark中cache和persist的区别
源码分析https://blog.csdn.net/houmou/article/details/52491419转载 2019-05-04 17:55:45 · 541 阅读 · 0 评论 -
Spark直连Kafka
bject KafkaDirectWordCount { def main(args: Array[String]): Unit = { //1.创建sparkStreaming程序入口 val conf: SparkConf = new SparkConf().setAppName("KafkaDirectWordCount") .setMaster("local...原创 2019-02-24 17:03:19 · 815 阅读 · 1 评论 -
Spark-cache&checkPoint-自定义排序
cachescala> val rdd = sc.textFile("/root/tecont.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)rdd: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[19] at reduceByKey at <console...原创 2019-01-22 22:24:33 · 192 阅读 · 0 评论 -
Spark-jdbcRDD-mysql
将数据导入到mysqlobject UrlGroupCount1 { def main(args: Array[String]): Unit = { //1.创建spark程序入口 val conf: SparkConf = new SparkConf().setAppName("UrlGroupCount1").setMaster("local[2]") val s...原创 2019-01-22 20:46:18 · 222 阅读 · 0 评论 -
Spark-Streaming
WordCountobject WordCount { def main(args: Array[String]): Unit = { //1.创建sparkContext val conf = new SparkConf().setAppName("WordCount").setMaster("local[2]") val sc = new SparkContext...原创 2019-01-26 18:32:57 · 320 阅读 · 0 评论 -
Spark-SQL数据源与写出格式
以mysql作为数据源object JdbcSource { def main(args: Array[String]): Unit = { //1.sparkSQL 创建sparkSession val sparkSession: SparkSession = SparkSession.builder().appName("JdbcSource") .mast...原创 2019-01-26 15:47:02 · 544 阅读 · 0 评论 -
Spark-SQL
SQL风格的操作通过封装数据和创建描述表信息来创建DataFrame,然后注册表 (最基本的)object SqlTest1 { def main(args: Array[String]): Unit = { //1.构建SparkSession val sparkSession = SparkSession.builder().appName(&amp;quot;SqlTest1&amp;quot;) ...原创 2019-01-25 21:25:41 · 496 阅读 · 0 评论 -
Spark案例,日志分析(自定义分区)
需求:数据:20180724101954 http://java.itstar.com/java/course/javaeeadvanced.shtml20180724101954 http://java.itstar.com/java/course/javaee.shtml20180724101954 http://java.itstar.com/java/course/android....原创 2019-01-21 12:11:16 · 217 阅读 · 0 评论 -
RDD常用的高级算子
spark高级算子1)mapPartionWithIndex(func)设置分区,并且查看每个分区中存放的元素查看每个分区中元素需要传递函数作为参数val func = (index:Int,iter:Iterator[(Int)]) => {iter.toList.map(x =>"["+ "partID:" + index + "," + "datas:" + x + ...原创 2019-01-18 23:25:27 · 380 阅读 · 0 评论 -
集群运行Spark与RDD算子创建与使用
启动sparkshell本地模式:bin/spark-shell集群启动:bin/spark-shell --master spark://spark-01:7077–total-executor-cores 2–executor-memory 500mbspark集群角色|Yarn |Spark |作用||ResourceManage | Master |...原创 2019-01-17 15:15:37 · 212 阅读 · 0 评论 -
Spark集群部署与WordCount
Spark概述官网:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。为大数据处理而设计的快速通用的计算引擎。Spark加州大学伯克利分校AMP实验室。不同于mapreduce的是一个Spark任务的中间结果保存到内存中。空间换时间。Spark启用的是内存分布式数据集。用scala语言实现,与spark紧密继承。用scal...原创 2019-01-17 12:44:31 · 393 阅读 · 0 评论