weixin_43003792-CSDN博客

原创 Spark_案例1先按照点击数排名，靠前的就排名高；如果点击数相同，再比较下单数；下单数再相同，就比较支付数

字段说明用下划线分隔开时间 2019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_37_2019-07-17 00:00:02_手机_-1_-1_null_null_null_null_32019-07-17_95_26070e87-1ad7-49a3-8fb3-cc741facaddf_48_2019-07-17 00:00:10_null_16_98_null_null_null_null_1.

2021-02-23 21:19:14 240

原创 Spark_RDD操作

一：戒骄戒躁，安心平气。1：rdd.aggregateByKey(）()与rdd…foldByKey()()区别当分区内操作相同时，只是一个简化版。2：求平均值次数相加数量相加：zero必须为mapval newRdd: RDD[(String, (Int, Int))] = rdd.aggregateByKey((0, 0))((t, v) => (t._1 + v, t._2 + 1 ),(t1, t2) => (t1._1 + t2._1, t1._2 + t2._2)

2021-02-22 23:02:48 234

原创 Flink_支付流到账流合流操作

package com.orderpayimport org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}import org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.co.{CoProcessFunction, KeyedCoProcessFunction}import

2021-02-22 20:04:38 145

原创 Flink_订单支付_sucess+process处理

一：package com.orderpayimport java.utilimport org.apache.flink.cep.{PatternSelectFunction, PatternTimeoutFunction}import org.apache.flink.cep.scala.{CEP, PatternStream}import org.apache.flink.cep.scala.pattern.Patternimport org.apache.flink.streaming.

2021-02-22 13:31:49 182

原创 Flink_恶意登录监控

一：当一个用户频繁登录失败用假如用户在短时间内连续登录失败被认为恶意登录package com.longinfailimport java.utilimport org.apache.flink.api.common.state.{ListState, ListStateDescriptor, ValueState, ValueStateDescriptor}import org.apache.flink.streaming.api.TimeCharacteristicimport org.a

2021-02-21 21:06:53 161

原创 Flink_电商用户统计——sql

package com.hotitems_analysisimport java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.scala._import org.apache.flink.str

2021-02-19 22:00:30 250

原创 Flink_电商用户行为分析_api调用

一：项目选型：二：电商用户行为分析• 统计分析实时统计 —Flink– 点击、浏览– 热门商品、近期热门商品、分类热门商品，流量统计• 偏好统计离线分析(数据量大)----mr,spark– 收藏、喜欢、评分、打标签– 用户画像，推荐列表（结合特征工程和机器学习算法）• 风险控制-------实时风控—Flink– 下订单、支付、登录– 刷单监控，订单失效监控，恶意登录（短时间内频繁登录失败）监控三：实时统计分析；• 实时热门商品统计• 实时热门页面流量统计• 实时访问流

2021-02-19 21:11:52 215

原创 Flink_Sql_Function——自定义各种函数

函数（Functions）• Flink Table API 和 SQL 为用户提供了一组用于数据转换的内置函数• SQL 中支持的很多函数，Table API 和 SQL 都已经做了实现Ø 比较函数• SQL：value1 = value2value1 > value2• Table API：ANY1 === ANY2ANY1 > ANY2Ø 逻辑函数• SQL：boolean1 OR boolean2boolean IS FALSENOT boolean• T

2021-02-19 14:02:46 1532

原创 Flink_Over Windows

Over Windows• Over window 聚合是标准 SQL 中已有的（over 子句），可以在查询的SELECT 子句中定义• Over window 聚合，会针对每个输入行，计算相邻行范围内的聚合• Over windows 使用 window（w:overwindows*）子句定义，并在 select（）方法中通过别名来引用val table = input.window([w: OverWindow] as 'w).select('a, 'b.sum over 'w, 'c

2021-02-19 10:49:00 670 1

原创 Flink_ProcessTime_EventTime_window

一：将动态表转换成DataStream1:Append-only2.Retrach流如果更新两条消息表示。一条true一条false.流式处理只能这样。3.Upsert(更新插入)流。只包含upsert和delete消息。时间特性（Time Attributes）定义处理时间（Processing Time）Ø 在创建表的 DDL 中定义val sinkDDL: String =“”"|create table dataTable (| id varchar(20) not null

2021-02-19 10:07:12 347

原创 Flink_SQL

一：Table API 是一套内嵌在 Java 和 Scala 语言中的查询API，它允许以非常直观的方式组合来自一些关系运算符的查询.二：Flink 的 SQL 支持基于实现了 SQL 标准的 Apache Calcite。三：Maven:org.apache.flinkflink-table-planner_2.121.10.1org.apache.flinkflink-table-api-scala-bridge_2.121.10.1四：程序结构1.source2.tra

2021-02-18 23:56:45 126

原创 Flink_状态后端_容错机制_保存点_状态一致性

一：每传入一条数据，有状态的算子任务都会读取状态状态分类：1:MemoryStateBackend键控状态存在TaskManager的jvm堆上chickpoint存储在JobManager的内存中 2： FsStateBackend：将checkpoint存储在远程持久化文件系统（FileSystem）3：RocksDBStateBackend:序列化后存入本地的RockDB中存储。二：Flink容错机制：就是state不丢一致性检查点 checkpoint 故障恢复在某一个时间点对任务

2021-02-18 19:48:59 158

原创 Flink_ProcessFunctionAPI

一：作用：获取eventtime watermarkprocessFunction 继承RichFunction(生命周期，获取运行时上下文，状态编程) 独特含有定时器 onTemer()注册未来时刻定时器分流操作： ProcessFunction //最底层 dataStream.process() KeyedProcessFunction CoProcessFunction ProcessJoinFunction BroadcastProces

2021-02-18 15:20:07 68

原创 Flink_状态管理

一：本地变量（分布式系统）：Flink中的状态：为了得到最新输出（reduce |window）依赖另外的数据。这些数据就叫做状态。本地变量。二：状态的类型1.算子状态（Operator State）当前算子任务都能访问到a:List state 将状态表示为一组数据的列表b:Union state 将c:广播状态 broadcast state` 2.键控状态（Keyed State）不同的key访问不同状态更常用。 key by 之后。键控状态对每一个key都保存了自己的

2021-02-18 13:48:47 130

原创 Flink_时间语义（事件时间）——watamark

一：时间语义：1.Event Time2.Ingestion Time 数据进入Flilnk的时间3.Processing Time;执行操作算子的本地系统时间二：由于网络、分布式等原因，导致乱序的产生，所谓乱序，就是指 Flink 接收到的事件的先后顺序不是严格按照事件的 Event Time 顺序排列的。三：解决迟到数据：Watermark 与window连用。Watermark 是一种衡量 Event Time 进展的机制。Watermark 是一种衡量 Event Time 进展的

2021-02-14 17:02:15 338

原创 Flink_windowApi

一：Window 是无限数据流处理的核心，Window 将一个无限的stream 拆分成有限大小的”buckets”桶，我们可以在这些桶上做计算操作。二：滚动窗口先分组再开窗三：滑动窗口：四会话窗口窗口分配器def window[W <: Window](assigner: WindowAssigner[_ >: T, W]): WindowedStream[T, K, W] = {new WindowedStream(new WindowedJavaStream[T, K

2021-02-14 16:15:32 199 1

原创 Flink_Transform_sinkMysql_kafka_sinkandsource

一：Transform1.简单转换算子 map flatMap Filter2.键控流转换算子 KeyBy DataStream → KeyedStream：逻辑地将一个流拆分成不相交的分区，每个分区包含具有相同 key 的元素，在内部以 hash 的形式实现的。3.滚动聚合算子(Rolling Aggregation)sum() min() max() minBy() maxBy()4.提取当前每个传感器的最低温度。package com.atguigu.sourceim

2021-02-13 23:22:58 66

原创 Flink_source

1.maven依赖读取kafkaorg.apache.flinkflink-connector-kafka-0.11_2.121.10.12.bin/kafka-server-start.sh -daemon config/server.properties //开启kafka服务3.kafka作为数据源package com.atguigu.source//**********import java.util.Properties import org.apache.flink.

2021-02-13 22:53:35 73

原创 Flink_02Scala开发基础篇

一：Maven依赖org.apache.flinkflink-scala_2.121.10.1org.apache.flinkflink-streaming-scala_2.121.10.1二：批处理的wcpackage com.atguigu.wcimport org.apache.flink.api.scala.ExecutionEnvironment//引入包对象的隐式转换import org.apache.flink.api.scala._//object Word

2021-02-13 00:22:40 310

原创 Flink_01理论基础

合流操作package com.atguigu.wc//合流操作import org.apache.flink.streaming.api.scala._object ConnectStream {def main(args: Array[String]): Unit = {val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironmentval inputstream:...

2021-02-08 23:57:40 80 1

原创 Spark_core

一：在这里插入图片描述在这里插入图片描述

2021-02-08 00:11:03 72

原创 Spark_Streaming

一：需求 5s内单词出现的次数从nc端口采集package com.atguigu.sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Duration, Seconds, StreamingContext}object SparkStre

2021-02-07 16:05:43 125

原创 SparkSQL

一：Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。二：Spark把原有数据增加结构DataFrame 数据结构DataSet 数据集底层仍然是RDD把spark sql 转换成spark RDD执行RDD 数据就是数据DataFrame 将数据增加数据结构DataSet 将数据当成对象使用将数据当成类的属性使用二：SparkSession 读取json文件spark

2021-02-07 00:16:06 76

原创 Spark_RDD

一：RDD （Resilient Distributed Dataset）分布式弹性数据集。是Spark中最基本的数据抽象。代码中式一个抽象类，代表一个不可变，可分区，里面的元素可并行计算的集合。数据来源分布数据集数据集合其实是逻辑抽象计算抽象不可变：参考String.里面的数据不可改变变得也是新产生的数据可分区：移动数据不如移动计算算子就是方法line.flatMap(_.split(" "))line.flatMap(_.split(" "))def flatMap[U:

2021-02-05 19:40:48 69

原创 Spark_standalone

一：Master+Slave 脱离yarn集群二：

2021-02-05 09:33:37 49

原创 Spark基础

一。Spark基础架构二：Spark内置模块三 Spark Shell1.yarn application -listdef flatMap[U](f: String => TraversableOnce[U])(implicit evidence$4: scala.reflect.ClassTag[U]): org.apache.spark.rdd.RDD[U]sc.textFile(“in”).flatMap(x=>x.split(" ")).map((x)=>{(x,

2021-02-05 00:03:39 93

原创 JAVA动态绑定机制

一.成员方法在执行过程中JVM会将方法和当前调用对象实际内存进行绑定属性没有动态绑定机制属性在哪里声明在哪里使用。1.只看内存 new 谁用谁的内存2.只要是成员方法调用时都要遵循动态绑定。无论是直接调用还是间接调用。看看当前对象内存中是否有成员方法。（属性不参与动态绑定）...

2021-02-03 10:25:08 70

原创 2021-02-03

package com.atguigu.construction//构造方法//scala构造方法分为两类主构造方法辅助构造方法object Demo1 {def main(args: Array[String]): Unit = {val user0 = new User09(“zhuzhuang”,“luci”)val user1 = new User09()println(user0)println(user1)}}//sacla构建对象可以通过辅助构造方法创建，但必须用主构

2021-02-03 09:30:27 78

原创 flume对接kafka

需求 flume采集的数据发送到不同的kafka topic里面。flume-kafka.confdefinea1.sources = r1a1.sinks = k1a1.channels = c1sourcea1.sources.r1.type = execa1.sources.r1.command = tail -F -c +0 /opt/module/datas/flume.loga1.sources.r1.shell = /bin/bash -csinka1.sinks.k1.

2021-02-01 22:02:36 237

原创 flume自定义sink

一.flume自定义sink.public class MySink extends AbstractSink implements Configurable {//定义两个属性前后缀private String prefix;private String subfix;//获取Log对象Logger logger = LoggerFactory.getLogger(MySink.class);@Overridepublic void configure(Context context)

2021-01-29 22:45:47 154

原创 flume自定义interceptor,source,

一.自定义source1.需求 hadoop203 监控本机端口44444，将内容分类发送给hadoop204,hadoop205，包含hello的给hadoop204,不包含的给hadoop205.都打印到控制台。(1)自定义过滤器。public class TypeInterceptor implements Interceptor {private List addHeaderEverts; //定义添加过头的eventlist；//初始化方法@Overridepublic void

2021-01-29 22:40:23 123

原创 HIVE操作

1.启动./hiveserver22.client启动beeline3.!connect jdbc:hive2://hadoop102:100004. Enter username for jdbc:hive2://hadoop102:10000: atguiguEnter password for jdbc:hive2://hadoop102:10000:Connected to: Apache Hive (version 1.2.1)5. show databases;6.DDLcrea

2021-01-22 23:24:49 149

原创 shell脚本学习

分区 /boot 200M/swap 2G/ 全部1.关闭防火墙 service iptables stop //服务关闭2.chkconfig iptables off //关闭开机自启

2021-01-18 13:58:09 177

原创 centos常用命令

**1.搜索查找类命令 find -name "in."2.ll | grep shenzhen 过滤查找。3.

2021-01-18 12:32:06 148

weixin_43003792的博客