自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 Spark_案例1先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数

字段说明 用下划线分隔开时间 2019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_37_2019-07-17 00:00:02_手机_-1_-1_null_null_null_null_32019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_48_2019-07-17 00:00:10_null_16_98_null_null_null_null_1.

2021-02-23 21:19:14 232

原创 Spark_RDD操作

一:戒骄戒躁,安心平气。1:rdd.aggregateByKey()()与rdd…foldByKey()()区别 当分区内操作相同时,只是一个简化版。2:求平均值 次数相加 数量相加:zero必须为mapval newRdd: RDD[(String, (Int, Int))] = rdd.aggregateByKey((0, 0))((t, v) => (t._1 + v, t._2 + 1 ),(t1, t2) => (t1._1 + t2._1, t1._2 + t2._2)

2021-02-22 23:02:48 225

原创 Flink_支付流到账流合流操作

package com.orderpayimport org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}import org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.co.{CoProcessFunction, KeyedCoProcessFunction}import

2021-02-22 20:04:38 137

原创 Flink_订单支付_sucess+process处理

一:package com.orderpayimport java.utilimport org.apache.flink.cep.{PatternSelectFunction, PatternTimeoutFunction}import org.apache.flink.cep.scala.{CEP, PatternStream}import org.apache.flink.cep.scala.pattern.Patternimport org.apache.flink.streaming.

2021-02-22 13:31:49 175

原创 Flink_恶意登录监控

一:当一个用户频繁登录失败用假如用户在短时间内连续登录失败 被认为恶意登录package com.longinfailimport java.utilimport org.apache.flink.api.common.state.{ListState, ListStateDescriptor, ValueState, ValueStateDescriptor}import org.apache.flink.streaming.api.TimeCharacteristicimport org.a

2021-02-21 21:06:53 156

原创 Flink_电商用户统计——sql

package com.hotitems_analysisimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.scala._import org.apache.flink.str

2021-02-19 22:00:30 245

原创 Flink_电商用户行为分析_api调用

一:项目选型:二:电商用户行为分析• 统计分析 实时统计 —Flink– 点击、浏览– 热门商品、近期热门商品、分类热门商品,流量统计• 偏好统计 离线分析(数据量大)----mr,spark– 收藏、喜欢、评分、打标签– 用户画像,推荐列表(结合特征工程和机器学习算法)• 风险控制-------实时风控—Flink– 下订单、支付、登录– 刷单监控,订单失效监控,恶意登录(短时间内频繁登录失败)监控三:实时统计分析;• 实时热门商品统计• 实时热门页面流量统计• 实时访问流

2021-02-19 21:11:52 208

原创 Flink_Sql_Function——自定义各种函数

函数(Functions)• Flink Table API 和 SQL 为用户提供了一组用于数据转换的内置函数• SQL 中支持的很多函数,Table API 和 SQL 都已经做了实现Ø 比较函数• SQL:value1 = value2value1 > value2• Table API:ANY1 === ANY2ANY1 > ANY2Ø 逻辑函数• SQL:boolean1 OR boolean2boolean IS FALSENOT boolean• T

2021-02-19 14:02:46 1497

原创 Flink_Over Windows

Over Windows• Over window 聚合是标准 SQL 中已有的(over 子句),可以在查询的SELECT 子句中定义• Over window 聚合,会针对每个输入行,计算相邻行范围内的聚合• Over windows 使用 window(w:overwindows*)子句定义,并在 select()方法中通过别名来引用val table = input.window([w: OverWindow] as 'w).select('a, 'b.sum over 'w, 'c

2021-02-19 10:49:00 652 1

原创 Flink_ProcessTime_EventTime_window

一:将动态表转换成DataStream1:Append-only2.Retrach流 如果更新两条消息表示。一条true一条false.流式处理只能这样。3.Upsert(更新插入)流。只包含upsert和delete消息。时间特性(Time Attributes)定义处理时间(Processing Time)Ø 在创建表的 DDL 中定义val sinkDDL: String =“”"|create table dataTable (| id varchar(20) not null

2021-02-19 10:07:12 341

原创 Flink_SQL

一:Table API 是一套内嵌在 Java 和 Scala 语言中的查询API,它允许以非常直观的方式组合来自一些关系运算符的查询.二:Flink 的 SQL 支持基于实现了 SQL 标准的 Apache Calcite。三:Maven:org.apache.flinkflink-table-planner_2.121.10.1org.apache.flinkflink-table-api-scala-bridge_2.121.10.1四:程序结构1.source2.tra

2021-02-18 23:56:45 120

原创 Flink_状态后端_容错机制_保存点_状态一致性

一:每传入一条数据,有状态的算子任务都会读取状态状态分类:1:MemoryStateBackend键控状态存在TaskManager的jvm堆上chickpoint存储在JobManager的内存中 2: FsStateBackend:将checkpoint存储在远程持久化文件系统(FileSystem)3:RocksDBStateBackend:序列化后存入本地的RockDB中存储。二:Flink容错机制:就是state不丢一致性检查点 checkpoint 故障恢复 在某一个时间点对任务

2021-02-18 19:48:59 154

原创 Flink_ProcessFunctionAPI

一:作用:获取eventtime watermarkprocessFunction 继承RichFunction(生命周期,获取运行时上下文,状态编程) 独特含有定时器 onTemer()注册未来时刻定时器分流操作: ProcessFunction //最底层 dataStream.process() KeyedProcessFunction CoProcessFunction ProcessJoinFunction BroadcastProces

2021-02-18 15:20:07 64

原创 Flink_状态管理

一:本地变量(分布式系统):Flink中的状态:为了得到最新输出(reduce |window) 依赖另外的数据。这些数据就叫做状态。本地变量。二:状态的类型1.算子状态(Operator State) 当前算子任务都能访问到a:List state 将状态表示为一组数据的列表b:Union state 将c:广播状态 broadcast state` 2.键控状态(Keyed State) 不同的key访问不同状态 更常用。 key by 之后。 键控状态 对每一个key都保存了自己的

2021-02-18 13:48:47 125

原创 Flink_时间语义(事件时间)——watamark

一:时间语义:1.Event Time2.Ingestion Time 数据进入Flilnk的时间3.Processing Time;执行操作算子的本地系统时间二: 由于网络、分布式等原因,导致乱序的产生,所谓乱序,就是指 Flink 接收到的事件的先后顺序不是严格按照事件的 Event Time 顺序排列的。三:解决迟到数据:Watermark 与window连用。Watermark 是一种衡量 Event Time 进展的机制。Watermark 是一种衡量 Event Time 进展的

2021-02-14 17:02:15 332

原创 Flink_windowApi

一:Window 是无限数据流处理的核心,Window 将一个无限的stream 拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作。二:滚动窗口 先分组 再开窗三:滑动窗口:四会话窗口窗口分配器def window[W <: Window](assigner: WindowAssigner[_ >: T, W]): WindowedStream[T, K, W] = {new WindowedStream(new WindowedJavaStream[T, K

2021-02-14 16:15:32 193 1

原创 Flink_Transform_sinkMysql_kafka_sinkandsource

一:Transform1.简单转换算子 map flatMap Filter2.键控流转换算子 KeyBy DataStream → KeyedStream:逻辑地将一个流拆 分成不相交的分区,每个分区包含具有相同 key 的元 素,在内部以 hash 的形式实现的。3.滚动聚合算子(Rolling Aggregation)sum() min() max() minBy() maxBy()4.提取当前每个传感器的最低温度。package com.atguigu.sourceim

2021-02-13 23:22:58 64

原创 Flink_source

1.maven依赖 读取kafkaorg.apache.flinkflink-connector-kafka-0.11_2.121.10.12.bin/kafka-server-start.sh -daemon config/server.properties //开启kafka服务3.kafka作为数据源package com.atguigu.source//**********import java.util.Properties import org.apache.flink.

2021-02-13 22:53:35 67

原创 Flink_02Scala开发基础篇

一:Maven依赖org.apache.flinkflink-scala_2.121.10.1org.apache.flinkflink-streaming-scala_2.121.10.1二:批处理的wcpackage com.atguigu.wcimport org.apache.flink.api.scala.ExecutionEnvironment//引入包对象的隐式转换import org.apache.flink.api.scala._//object Word

2021-02-13 00:22:40 296

原创 Flink_01理论基础

合流操作package com.atguigu.wc//合流操作import org.apache.flink.streaming.api.scala._object ConnectStream {def main(args: Array[String]): Unit = {val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironmentval inputstream:...

2021-02-08 23:57:40 77 1

原创 Spark_core

一:在这里插入图片描述在这里插入图片描述

2021-02-08 00:11:03 71

原创 Spark_Streaming

一:需求 5s内单词出现的次数 从nc端口采集package com.atguigu.sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Duration, Seconds, StreamingContext}object SparkStre

2021-02-07 16:05:43 117

原创 SparkSQL

一:Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。二:Spark把原有数据增加结构DataFrame 数据结构DataSet 数据集底层仍然是RDD把spark sql 转换成spark RDD执行RDD 数据就是数据DataFrame 将数据增加数据结构DataSet 将数据当成对象使用 将数据当成类的属性使用二:SparkSession 读取json文件spark

2021-02-07 00:16:06 73

原创 Spark_RDD

一:RDD (Resilient Distributed Dataset) 分布式弹性数据集。是Spark中最基本的数据抽象。代码中式一个抽象类,代表一个不可变,可分区,里面的元素可并行计算的集合。数据来源分布数据集 数据集合其实是逻辑抽象 计算抽象不可变:参考String.里面的数据不可改变 变得也是新产生的数据可分区:移动数据不如移动计算算子就是方法line.flatMap(_.split(" "))line.flatMap(_.split(" "))def flatMap[U:

2021-02-05 19:40:48 65

原创 Spark_standalone

一:Master+Slave 脱离yarn集群二:

2021-02-05 09:33:37 45

原创 Spark基础

一。Spark基础架构二:Spark内置模块三 Spark Shell1.yarn application -listdef flatMap[U](f: String => TraversableOnce[U])(implicit evidence$4: scala.reflect.ClassTag[U]): org.apache.spark.rdd.RDD[U]sc.textFile(“in”).flatMap(x=>x.split(" ")).map((x)=>{(x,

2021-02-05 00:03:39 92

原创 JAVA动态绑定机制

一.成员方法在执行过程中JVM会将方法和当前调用对象实际内存进行绑定属性没有动态绑定机制 属性在哪里声明在哪里使用。1.只看内存 new 谁用谁的内存2.只要是成员方法 调用时都要遵循动态绑定。无论是直接调用还是间接调用。看看当前对象内存中是否有成员方法。(属性不参与动态绑定)...

2021-02-03 10:25:08 62

原创 2021-02-03

package com.atguigu.construction//构造方法//scala构造方法分为两类 主构造方法 辅助构造方法object Demo1 {def main(args: Array[String]): Unit = {val user0 = new User09(“zhuzhuang”,“luci”)val user1 = new User09()println(user0)println(user1)}}//sacla构建对象可以通过辅助构造方法创建,但必须用主构

2021-02-03 09:30:27 72

原创 flume对接kafka

需求 flume采集的数据发送到不同的kafka topic里面。flume-kafka.confdefinea1.sources = r1a1.sinks = k1a1.channels = c1sourcea1.sources.r1.type = execa1.sources.r1.command = tail -F -c +0 /opt/module/datas/flume.loga1.sources.r1.shell = /bin/bash -csinka1.sinks.k1.

2021-02-01 22:02:36 231

原创 flume自定义sink

一.flume自定义sink.public class MySink extends AbstractSink implements Configurable {//定义两个属性 前后缀private String prefix;private String subfix;//获取Log对象Logger logger = LoggerFactory.getLogger(MySink.class);@Overridepublic void configure(Context context)

2021-01-29 22:45:47 150

原创 flume自定义interceptor,source,

一.自定义source1.需求 hadoop203 监控本机端口44444,将内容分类发送给hadoop204,hadoop205,包含hello的给hadoop204,不包含的给hadoop205.都打印到控制台。(1)自定义过滤器。public class TypeInterceptor implements Interceptor {private List addHeaderEverts; //定义添加过头的eventlist;//初始化方法@Overridepublic void

2021-01-29 22:40:23 117

原创 HIVE操作

1.启动./hiveserver22.client启动beeline3.!connect jdbc:hive2://hadoop102:100004. Enter username for jdbc:hive2://hadoop102:10000: atguiguEnter password for jdbc:hive2://hadoop102:10000:Connected to: Apache Hive (version 1.2.1)5. show databases;6.DDLcrea

2021-01-22 23:24:49 145

原创 shell脚本学习

分区 /boot 200M/swap 2G/ 全部1.关闭防火墙 service iptables stop //服务关闭2.chkconfig iptables off //关闭开机自启

2021-01-18 13:58:09 171

原创 centos常用命令

**1.搜索查找类命令 find -name "in."2.ll | grep shenzhen 过滤查找。3.

2021-01-18 12:32:06 143

K8s 1.25.4+docker 的kubeadm部署

K8s 1.25.4+docker 的kubeadm部署

2023-02-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除