大数据学习
文章平均质量分 69
沉淀技术这十年
我尽量把我的时间花费在提升技术上,沉淀技术这十年2018.07-2028.07
展开
-
【flink】本地开发时,waterMark设置正确,但是窗口一直没有被触发
最近在公司使用flink做项目,在本地idea中开发时,waterMark设置正确,但是窗口一直没有被触发,因为任务并行执行时,总是以最小的waterMark为准的,而我本地没有设置并行度,默认使用windows的并行度,导致窗口一直没有被触发,所以在本地开发时,最好将并行度设置为1:env.setParallelism(1);...原创 2021-02-05 23:03:04 · 963 阅读 · 0 评论 -
【flink】连续登陆失败两次检测
package com.atguigu.loginfail_detect;/** * Copyright (c) 2018-2028 尚硅谷 All Rights Reserved * <p> * Project: UserBehaviorAnalysis * Package: com.atguigu.loginfail_detect * Version: 1.0 * <p> * Created by wushengran on 2020/11/17 14:02 */原创 2021-02-03 00:11:52 · 481 阅读 · 0 评论 -
【FLINK学习笔记】FLINK时间语义
主要内容是flink的waterMark设置与理解原创 2021-02-01 00:02:03 · 1170 阅读 · 0 评论 -
【FLINK学习笔记】 FLINK WINDOW(窗口)详解
一、Window 分类Global Window 和 和 Keyed Window在运用窗口计算时,Flink根据上游数据集是否为KeyedStream类型,对应的Windows 也会有所不同。Keyed Window:上游数据集如果是 KeyedStream 类型,则调用 DataStream API 的 window()方法,数据会根据 Key 在不同的 Task 实例中并行分别计算,最后得出针对每个 Key 统计的结果。Global Window:如果是 Non-Keyed 类型,则调用原创 2021-01-31 23:04:39 · 528 阅读 · 0 评论 -
【flink】flink State 管理与恢复
Flink State 管理与恢复Flink 是一个默认就有状态的分析引擎,前面的 WordCount 案例可以做到单词的数量的累加,其实是因为在内存中保证了每个单词的出现的次数,这些数据其实就是状态数据。但是如果一个 Task 在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义(At -least-once 和 Exactly-once)上来说,Flink引入了 State 和 CheckPoint。 State 一般指一个具体的 Task/O原创 2021-01-31 22:34:04 · 247 阅读 · 0 评论 -
【flink】flink常用API
学习链接:https://www.bilibili.com/video/BV1A5411x7Md?p=40&spm_id_from=pageDriver一、DataStream转换算子1.1 Map [DataStream[T]->DataStream[R]]流的类型是相同的,流里面的元素是可以变的1.2 FlatMap [DataStream[T]->DataStream[R]]1、传递的参数是函数,而且这个函数的返回值类型是可迭代的类型(集合、数组等)2、流的类型是相.原创 2021-01-31 21:08:53 · 357 阅读 · 0 评论 -
【flink】flink复杂事件处理
复杂事件处理(CEP)是一种基于流处理的技术,将系统数据看作不同类型的事件,通过分析事件之间的关系,建立不同的事件关系序列库,并利用过滤、关联、聚合等技术,最终由简单事件产生高级事件,并通过模式规则的方式对重要信息进行跟踪和分析,从实时数据中发掘有价值的信息。复杂事件处理主要应用于防范网络欺诈、设备故障检测、风险规避和智能营销等领域。Flink 基于 DataStrem API 提供了 FlinkCEP 组件栈,专门用于对复杂事件的处理,帮助用户从流式数据中发掘有价值的信息。1、CEP 相关概念配置.原创 2021-01-30 01:54:33 · 843 阅读 · 0 评论 -
【Flink】01、flink快速入门
学习链接(尚硅谷):https://www.bilibili.com/video/BV1Qp4y1Y7YN一、flink简介flink的特点低延迟高吞吐能正确地处理数据和容错机制什么是事件驱动?就像tomcat一样,从启动之后就一直处于运行状态,只要有请求事件过来,就会进行处理二、flink快速体验当前scala版本为2.11.8如果在这个版本下,使用scala_2.12和1.10.1版本的话会报错的哦: <dependency> .原创 2021-01-07 23:30:47 · 185 阅读 · 1 评论 -
【实时数仓】02ES
一、ES安装centos7:vim /etc/security/limits.conf* soft nofile 65536* hard nofile 131072* soft nproc 2048* hard nproc 65536vim /etc/sysctl.conf vm.max_map_count=262144重启三台cdh机器tar -zxvf elasticsearch-6.6.0.tar.gz -C /opt/module/tar -zxvf kibana-原创 2020-08-23 01:33:22 · 464 阅读 · 0 评论 -
【实时数仓】01日志采集的搭建
学习资料收集于尚硅谷大数据原创 2020-08-22 21:35:08 · 1043 阅读 · 0 评论 -
CDH6.2离线安装
CDH离线安装笔记,亲测可用原创 2020-08-20 22:38:01 · 346 阅读 · 0 评论 -
【大数据学习】hadoop环境搭建
首先,安装JDK,这里就不细说了。这里使用的是hdfs用户进行安装的,先在五台机器上创建hdfs用户:useradd hdfs设置密码,我设置了000000passwd hdfs一、修改/etc/hosts文件先配置sudo(五台都配置):vi /etc/sudoers在root ALL=(ALL) ALL下添加hdfs ALL=(ALL) NOPASSWD: ALL配置hosts文件(五台都配置) vi /etc/hosts192.168.66.161原创 2020-06-06 17:20:35 · 171 阅读 · 1 评论 -
【大数据学习】centos7安装
一、下载镜像镜像下载地址:https://mirrors.aliyun.com/centos/7.8.2003/isos/x86_64/CentOS-7-x86_64-Minimal-2003.iso二、使用VMWare安装一直按照图中的勾选即可。下图选择下载好的镜像位置:选完镜像之后点击下一步:下图处理器和核心数,如果机器性能不高,可以全部选1,我的是6核12线程的,就选大了一些。下图是内存设置,我这里设置为4G,我总共32G内存,所以设置的比较大,如果资源不够,可以设置小一点,原创 2020-06-06 00:25:39 · 458 阅读 · 0 评论 -
尚硅谷电商管理平台-需求七到十-广告实时模块
1.1创建表SET FOREIGN_KEY_CHECKS = 0;-- ------------------------------ Table structure for `ad_blacklist`-- ----------------------------DROP TABLE IF EXISTS `ad_blacklist`;CREATE TABLE `ad_blacklist` ( `userid` int(11) DEFAULT NULL) ENGINE=InnoDB DE原创 2020-05-13 22:05:58 · 251 阅读 · 0 评论 -
尚硅谷电商管理平台-需求六-各区域Top3商品统计
各区域Top3商品统计统计各个区域中Top3的热门商品,热门商品的评判指标是商品被点击的次数,对于user_visit_action表,click_product_id表示被点击的商品。区域与等级:数据流程:原创 2020-05-13 21:21:14 · 332 阅读 · 0 评论 -
尚硅谷电商管理平台-需求五-页面单跳转化率统计
页面单跳转化率统计思路:先过滤符合条件的数据转换数据(sessionid,action)获取切片数组对数据进行分组对分组后的数据按照时间排序取出排序后的pageid信息过滤出不在切片数组中的数据获取起始页面的个数计算目标页面流的各个页面切片的转化率object PageOneStepConvertRate { def main(args: Array[String]): Unit = { // 获取统计任务参数【为了方便,直接从配置文件中获取,企业中会从一个调度平台原创 2020-05-12 21:11:01 · 247 阅读 · 0 评论 -
尚硅谷电商管理平台笔记2
一、Session随机抽取原创 2020-05-12 00:38:09 · 215 阅读 · 0 评论 -
尚硅谷电商分析平台笔记1
一、需求概述1.1需求三个离线需求,一个实时需求。1.2hive表涉及三张hive表,动作表、用户表、物品表动作表详细说明:1.3数据样例1.4实时数据解析1.5 需求总概述二、用户访问Session分析Session访问步长分析一个用户表的session_id,对应动作表中的多条数据。思路分析:先按照session_id进行分组,在每一个分组中,进行遍历:在for循环外面,定义一个startTime和endTime,...原创 2020-05-10 23:11:36 · 514 阅读 · 0 评论 -
在idea运行scala程序报错:The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are
在idea运行scala程序报错:Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState': java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: ---------解决方式:%HADOOP_HOME%\bin\winutils.exe chmod 7原创 2020-05-10 21:01:26 · 631 阅读 · 1 评论 -
HDFS没有一台namenode能启动
org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException:Journal Storage Directory /tmp/hadoop/dfs/journalnode/mycluster not formatted解决方式:将所有journalnode守护进程启动后,在其中一台namenode下执行:hdfs ...原创 2020-04-09 23:24:28 · 345 阅读 · 0 评论 -
HDFS文件系统
很好的一篇HDFS文件系统的博客,感谢大佬们的博客,该博客仅作为记录学习使用! 博客内容选自各渠道资料,如有侵权,请留言,谢谢!...原创 2020-04-04 02:26:49 · 208 阅读 · 0 评论 -
尚硅谷电商分析项目之(一)session各范围访问步长、访问时长占比统计
session各范围访问步长、访问时长占比统计简要运行流程:user_visit_action表:user_info表:import java.util.{Date, UUID}import SessionStat.getSessionRatioimport commons.conf.ConfigurationManagerimport commons.constant.Co...转载 2019-11-29 23:46:16 · 430 阅读 · 0 评论 -
scala学习笔记-2019-11-16
scala学习笔记原创 2019-11-16 16:02:10 · 92 阅读 · 0 评论 -
spark资料收集
1.8 Spark1.8.1 回顾MR并且比较sparkMapReduce :分而治之 map是分Map端每一个maptask处理的是一个split的数据,一个split对应一个block,split大小和block大小不完全一样,有可能一行记录被划分到了两个block存储默认的环形buffer是100M,比例是80%,为什么划分两份?为了并行执行,而不是阻塞执行,当达到80%时,会把80...原创 2019-11-04 00:07:08 · 153 阅读 · 0 评论 -
尚硅谷大数据技术之Flume
第1章 概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2 Flume的优点可以和任意存储进程集成。输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。flume中的事务基于channel,使用了两个事务模型(sender + receiv...转载 2019-11-03 23:03:01 · 1822 阅读 · 1 评论