spark
文章平均质量分 64
weixin_43003792
性格使然!!!
展开
-
Spark_新版本中读取kafka数据
package com.atguigu.sparkstreamingimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, InputDStream, ReceiverInputDStream}import org.apache.spark.s原创 2021-04-05 13:18:01 · 202 阅读 · 0 评论 -
Spark_RDD实现页面跳转率计算
package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}//城市 idobject PageflowAnalysis2 {def main(args: Array[String]): Unit = {val conf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“HotCat原创 2021-04-04 20:02:25 · 235 阅读 · 0 评论 -
Spark——实现统计TOP-N的5种方法使用累加器规避shuffle
1========================================================================package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object HotCategoryTop10Analysis {def main(args: Array[String]): Unit = {//TOD原创 2021-04-03 23:28:05 · 576 阅读 · 0 评论 -
Spark_使用broadcast避免Join出现笛卡尔乘积
package com.atguigu.sparkimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutableobject TestBroadCast {def main(args: Array[String]): Unit = {//1.使用开发工原创 2021-04-03 22:36:34 · 197 阅读 · 0 评论 -
Spark_使用累加器实现WordCount避免shuffle
package com.atguigu.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.util.AccumulatorV2import org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutableobject TestACCWc {def main(args: Array[String]): Unit = {val conf = new原创 2021-04-03 22:22:39 · 221 阅读 · 0 评论 -
Flink_疑点解析+知识巩固
一:1.Spark某些算子有状态2.Flink的状态是默认存在的 RichFunction中创建 内存状根据配置定时时保存为ChickPoint.在HDFS上。3.Flink 优势 EventTime Spark仅支持ProcessTime4.Windonw TimeWindow CountWindow5.内存管理 Flink基于JVM独立内存管理 提前规定内存大小 固定占用6.chickPoint Flink基于快照 Spark基于RDD做CheckPoint二:流式WCpacka原创 2021-02-27 21:51:50 · 128 阅读 · 0 评论 -
Spark_sql_jdbc_UDAF_
1.从Mysql中读取数据写入到mysql中package com.atguigu.sparksqlimport org.apache.spark.SparkConfimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object SparkReadJDBC {def main(args: Array[String]): Unit = {val conf: SparkConf = new SparkConf().setMa原创 2021-02-25 22:20:40 · 88 阅读 · 0 评论 -
Spark_udf_udaf
def f7(f:(Int,Int)=>Int)={ f(10,20)}println(f7((x:Int,y:Int)=>{x+y}))println(f7((x,y)=>{x+y}))println(f7(_+_))原创 2021-02-25 13:14:24 · 74 阅读 · 0 评论 -
Spark_rdd_DF_DataSet
1.rdd转换DF<直接指定列命 增加结构名称既可。rdd.toDF(“id”) ===========rdd = df.rdd2.DataSet :强类型。case class Person(name:String,age:Long)val list = List(Person(“zhangsan”,15),Person(“lsii”,15),Person(“wangwu”,15))val ds = list.toDSds.show3.DS转换DFDS 创建时指定样例类 val l原创 2021-02-24 23:54:16 · 197 阅读 · 0 评论 -
Spark_源码解析
1.原创 2021-02-24 16:52:52 · 87 阅读 · 0 评论 -
Spark_Top10热门品类中每个品类的Top10活跃Session统计(用户)
1.需求 Top10热门品类中每个品类的Top10活跃Session统计(用户)2.只看点击3.品类要在top10package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object HotCategoryTop10Analysis5 {def main(args: Array[String]): Unit = {//TODO Top10热门品类v原创 2021-02-23 23:07:08 · 358 阅读 · 0 评论 -
Spark——使用广播变量实现wc
package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.util.AccumulatorV2import org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable//使用累加器 拒绝shullfeobject HotCategoryTop10Analysis4 {def main(args: Array[Stri原创 2021-02-23 22:30:59 · 108 阅读 · 0 评论 -
Spark_案例3
package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object HotCategoryTop10Analysis3 {def main(args: Array[String]): Unit = {//TODO Top10热门品类val conf: SparkConf = new SparkConf().setMaster(“local[*]”).s原创 2021-02-23 21:42:44 · 58 阅读 · 1 评论 -
Spark_电商网站数据分析2
package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object HotCategoryTop10Analysis2 {def main(args: Array[String]): Unit = {//TODO Top10热门品类val conf: SparkConf = new SparkConf().setMaster(“local[*]”).s原创 2021-02-23 21:19:51 · 151 阅读 · 0 评论 -
Spark_案例1先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数
字段说明 用下划线分隔开时间 2019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_37_2019-07-17 00:00:02_手机_-1_-1_null_null_null_null_32019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_48_2019-07-17 00:00:10_null_16_98_null_null_null_null_1.原创 2021-02-23 21:19:14 · 232 阅读 · 0 评论 -
Spark_RDD操作
一:戒骄戒躁,安心平气。1:rdd.aggregateByKey()()与rdd…foldByKey()()区别 当分区内操作相同时,只是一个简化版。2:求平均值 次数相加 数量相加:zero必须为mapval newRdd: RDD[(String, (Int, Int))] = rdd.aggregateByKey((0, 0))((t, v) => (t._1 + v, t._2 + 1 ),(t1, t2) => (t1._1 + t2._1, t1._2 + t2._2)原创 2021-02-22 23:02:48 · 225 阅读 · 0 评论 -
Spark_core
一:在这里插入图片描述在这里插入图片描述原创 2021-02-08 00:11:03 · 71 阅读 · 0 评论 -
Spark_Streaming
一:需求 5s内单词出现的次数 从nc端口采集package com.atguigu.sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Duration, Seconds, StreamingContext}object SparkStre原创 2021-02-07 16:05:43 · 117 阅读 · 0 评论 -
SparkSQL
一:Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。二:Spark把原有数据增加结构DataFrame 数据结构DataSet 数据集底层仍然是RDD把spark sql 转换成spark RDD执行RDD 数据就是数据DataFrame 将数据增加数据结构DataSet 将数据当成对象使用 将数据当成类的属性使用二:SparkSession 读取json文件spark原创 2021-02-07 00:16:06 · 73 阅读 · 0 评论 -
Spark_RDD
一:RDD (Resilient Distributed Dataset) 分布式弹性数据集。是Spark中最基本的数据抽象。代码中式一个抽象类,代表一个不可变,可分区,里面的元素可并行计算的集合。数据来源分布数据集 数据集合其实是逻辑抽象 计算抽象不可变:参考String.里面的数据不可改变 变得也是新产生的数据可分区:移动数据不如移动计算算子就是方法line.flatMap(_.split(" "))line.flatMap(_.split(" "))def flatMap[U:原创 2021-02-05 19:40:48 · 65 阅读 · 0 评论 -
Spark_standalone
一:Master+Slave 脱离yarn集群二:原创 2021-02-05 09:33:37 · 45 阅读 · 0 评论