自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (12)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hadoop之本地运行模式基本环境配置

Hadoop 环境配置非专业生产环境配置JDK安装包:jdk-8u212-linux-x64.tar.gz 提取码:l5goHadoop安装包:hadoop-3.1.3.tar.gz 提取码:2juv1.服务器准备1.1 配置必要的环境(初始化状态下的服务器)yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop配置成功:1.2 配置

2020-05-14 17:23:10 1065

原创 org.apache.flink.table.api.ValidationException: Expected LocalReferenceExpression. Got: timestamp

情景:在设置滑动窗口时遇到的问题,详细代码如下:table.window(Slide.over(lit(1).hours()).every(lit(5).minutes()).on(($("timestamp").rowtime()).as("ts")).as("w")).groupBy($("w"), $("itemId")).select($("itemId"), $("itemId").count().as("itemCout"), $("w").end().as("windowEnd")).

2020-09-24 11:41:51 1811

原创 Flink 之 ProcessFunction API

一 概述转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)。例如,Flink SQL就是使用

2020-09-21 16:30:41 210

原创 Flink 之时间语义与Wartermark

一、时间语义1、Event Time :事件创建的时间1) 一般情况下是从日志数据或者业务数据的时间戳(timestamp)中提取。2)通过执行环境调用setStreamTimeCharacteristic(TimeCharacteristic.EventTime)来进行设置3)在Event Time模式处理数据流的情况下,Flink会根据数据中的时间戳来处理基于时间的算子。2、Ingestion Time :事件进入Flink的时间3、Processing Time : 执行操作算子的本地系统

2020-09-21 15:39:57 355

原创 Flink 之Window介绍与使用

流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而Window窗口是一种切割无限数据为有限块进行处理的手段。Window是无限数据流处理的核心,Window将一个无限的stream拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作。

2020-09-20 20:42:22 175

原创 Flink 之CEP介绍及应用

1、什么是CEP?CEP即复杂事件处理(Complex Event Processing,CEP)。Flink CEP是在 Flink 中实现的复杂事件处理(CEP)库。CEP 允许在无休止的事件流中检测事件模式,让我们有机会掌握数据中重要的部分。一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据 —— 满足规则的复杂事件。CEP用于分析低延迟、频繁产生的不同来源的事件流。CEP可以帮助在复杂的、不相关的事件流中找出有意义的模式和复杂的关系,以接近实时或准实时的获得通知

2020-09-18 22:37:15 2651

原创 Flink 之状态一致性浅述

1. 概念有状态的流处理,内部每个算子任务都可以有自己的状态对于流处理器内部来说,所谓的状态一致性,其实就是我们所说的计算结果要保证准确。一条数据不应该丢失,也不应该重复计算在遇到故障时可以恢复状态,恢复以后的重新计算,结果应该也是完全正确的。2. 分类AT-MOST-ONCE(最多一次)当任务故障时,最简单的做法是什么都不干,既不恢复丢失的状态,也不重播丢失的数据。At-most-onceAT-LEAST-ONCE(至少一次)在大多数的真实应用场景,我们希望不丢失事件。这种类

2020-09-17 20:23:45 352

原创 Flink 之容错机制相关配置

一、checkpoint 配置获取流执行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);启用检查点机制,并修改默认的检查点保存间隔500ms为1000msenv.enableCheckpointing(1000L);通过获取检查点配置进行相应的配置 env.getCheckpointConfig() ;设置检查

2020-09-17 13:49:47 562

原创 Flink 之容错机制浅析

在分布式系统中,服务故障是常有的事,为了保证服务能够7*24小时稳定运行,像Flink这样的流处理器故障恢复机制是必须要有的。显然这就意味着,它(这类流处理器)不仅要能在服务出现故障时候能够重启服务,而且还要当故障发生时,保证能够持久化服务内部各个组件的当前状态,只有这样才能保证在故障恢复时候,服务能够继续正常运行,好像故障就没有发生过一样。

2020-09-17 13:04:35 120

原创 BI工具 vs 定制可视化

使用人群BI:数据分析师、运营团队可视化:管理人员、客户交互平台BI:电脑、互动性极强可视化:电脑、手机、iPad、挂屏专业性BI:专业性更强,扩展性强,界面相对朴实可视化:专业性弱,扩展性弱,观赏性更强需求变更难度BI:修改更方便,只需要进行相应的配置,操作简单可视化:需要前端定制开发,除非有定制化大屏服务,比如:阿里云的DataV...

2020-09-08 10:25:36 349

原创 公共层和数据集市层的区别和特点?(高频)

公共维度模型层(CDM):存放明细事实数据、维表数据及公共指 标汇总数据 ,其中明细事实数据、维表数据一般根据 ODS 层数据加工生成 :公共指标汇总数据一般根据维表数据和明细事实数据加工生成。CDM 层又细分为 DWD 层和 DWS 层,分别是明细数据层和汇总数据层,采用维度模型方法作为理论基础 ,更多地采用一些维度退化手法, 将维度退化至事实表中,减少事实表和维表的关联 ,提高明细数据表的易用性 :同时在汇总数据层, 加强指标的维度退化, 采取更多的宽表化 手段构建公共指标数据层,提升公共指标的复用性

2020-09-07 23:13:23 3884

原创 canal进程启动后,kafka无法实时消费数据,问题排查思路

1、查看mysql中是否为canal赋权限在mysql中执行GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%' IDENTIFIED BY 'canal' ;执行show grants for 'canal';查看权限2、查看/etc/my.cnf中是否开启binlog# 设置安全策略,0的安全级别最低,2的级别最高,密码长度为1validate_password_policy=0validate

2020-09-02 08:24:53 1099

原创 Error while executing topic command : Replication factor: 1 larger than available brokers: 0.异常的解决方案

以上两张截图抛出异常类似,但原因不同原因分析:1、可能是Kafka的集群没能正常运行2、可能是Kafka的某个进程挂掉了3、可能是命令书写有误解决方案:1、检查kafka集群状态是否正常,执行 jps命令2、检查命令书写是否正确错误写法:bin/kafka-topics.sh --zookeeper hadoop102:2181 \--create --topic partitionsTest --partitions 4 --replication-factor 1正确写法1:..

2020-08-27 16:35:40 5991

原创 IDEA中连接Redis集群时抛出异常:CLUSTERDOWN Hash slot not served 的问题解决

Caused by: redis.clients.jedis.exceptions.JedisClusterException: CLUSTERDOWN Hash slot not served或者:原因分析:集群的hash槽没有提供,,即已启动Redis的主从节点实例服务,但没有将这些实例合并成一个集群解决方案:1:在redis的安装目录下的src目录下,执行如下命令:./redis-trib.rb create --replicas 1 192.168.1.102:6379 192.16

2020-08-25 21:49:28 9319

原创 reids集群搭建踩坑

1 无法连接节点>>> Creating cluster[ERR] Sorry,can't connect to node 192.168.1.102:6379解决方案:1、修改reids.conf配置文件中的bind 127.0.0.1 为 本机地址2、设置protected-mode no3、关闭appendonly appendonly no2 ERR Invalid node address specified: hadoop102:6379解决方案:地址

2020-08-24 21:24:28 434

原创 ERROR: Check hive‘s usability failed, please check the status of your cluster问题解决

情景: 启动Kylin时抛出异常原因分析:检查hive的环境变量配置是否有误启动hive客户端,观察是否异常hive连接超时,与电脑性能相关,check-hive-usability.sh文件中默认设置为60秒,可根据自己电脑适当调整。...

2020-08-13 18:31:56 898

原创 HBase 优化之四大法宝

HBase 优化主要有四大方法:预分区、RowKey设计、内存优化、基础优化1、预分区每一个region维护着startRow与endRowKey,如果加入的数据符合某个region维护的rowKey范围,则该数据交给这个region维护。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高HBase性能。手动设定预分区create 'staff1','info','partition1',SPLITS => ['1000','2000','3000','4000']

2020-08-03 20:49:41 266

原创 HBase 简单介绍

逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。1. HBase 逻辑架构2. HBase 概念介绍2.1 结构概念Namespace命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名

2020-08-03 20:21:37 179

原创 Azkaban和Oozie的区别

Azkaban和0ozie的区别:Azkaban是轻量级的,0ozie是重量级的。Azkaban配置文件用yaml语法,Oozie用xmlAzkaban功能功能简单(但能满足工作日常需要),0ozie功能复杂Azkaban只依赖mysql,Oozie依赖于hadoopAzkaban在脚本所在位置执行命令/程序,0ozie在Hadoop集群生态内执行命令/程序...

2020-07-31 23:35:44 1314

原创 Azkaban上传文件报如下异常

Azkaban上传文件报如下异常Error loading flow yaml file basic.flow:java.nio.charset.MalformedInputException: Input length = 1解决方案:更改文件的编码格式为ANSI

2020-07-31 21:43:38 1603

原创 Error:(6, 17) java: 程序包org.junit不存在 Error:(12, 6) java: 找不到符号 符号:类Test 位置:类——程序包不存在的解决方案

背景:环境:IDEA2020.1+Maven3.5.4+hadoop本地仓库配置正确,且本地仓库中有程序所需要的包,但是编译总是抛出如图所示的错误解决方案:1. 更换Maven版本为3.6.x(3.6.0, 3.6.1, 3.6.2, 3.6.3)都可以尝试一下2. 一方案行不通的话,使用IDEA默认的Maven版本,仅更改本地仓库路径...

2020-05-20 13:21:33 7680

原创 Hadoop之伪分布式模式基本环境配置及运行测试

前言Hadoop基本环境已配置好,三大模式之本地运行模式已测试成功,详情请参考上一篇文章:Hadoop之本地运行模式基本环境配置1 检查单服务器下的环境配置vim /opt/module/hadoop-3.1.3/etc/hadoop/hadoop-env.sh2 配置HDFS集群2.1 配置/opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml文件vim /opt/module/hadoop-3.1.3/etc/hadoop/core-site

2020-05-15 22:38:00 522

原创 java.net.BindException: Problem binding to [hadoop21:8031] java.net.BindException: 无法指定被请求的地址

java.net.BindException: Problem binding to [hadoop101:9820] java.net.BindException: 无法指定被请求的地址; For more details see: http://wiki.apache.org/hadoop/BindException可能原因及解决方案1.查看9820端口是否被占用netstat -anp |grep 98202.查看hadoop101是否为当前服务器名cat /etc/hostna

2020-05-15 20:39:35 1686

原创 SyntaxError: Generator expression must be parenthesized解决方案

由于django 1.11版本和python3.7版本不兼容, 2.0版本以后的Django修复了这个问题Unhandled exception in thread started by <function check_errors.<locals>.wrapper at 0x7fa26be637b8>Traceback (most recent call last):...

2020-04-08 00:51:56 6555 1

原创 Linux服务器的Nginx配置

环境: CentOS7.3 64位 Nginx1.16.1版本安装pcre依赖yum -y install pcre*安装openssl依赖yum -y install openssl*获取nginx压缩包wget http://nginx.org/download/nginx-1.16.1.tar.gz解压nginx压缩包tar -z...

2020-04-07 23:11:42 370

原创 Java基于数组的客户信息管理(文本界面)

基于Java数组的客户信息管理系统

2020-04-02 00:07:25 322

原创 CentOS的Python3安装

编译器安装:yum -y install gcc依赖包安装:yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel gcc gcc-c++ openssl-devel libffi-devel python-devel mariadb-devel获取安装包: w...

2020-03-16 20:45:39 111

原创 Error downloading packages: epel-release-7-12.noarch: [Errno 5] [Errno 8] Exec format error

Error downloading packages: epel-release-7-12.noarch: [Errno 5] [Errno 8] Exec format errorCentOS的yum安装出现这种情况时运行cat /usr/bin/yum保证该文件的第一行设置为"#!/usr/bin/python2.7",若你设置python软连接是python2,则设置为"#!/...

2020-03-12 15:17:31 1447 1

原创 常规问题解决:File "/usr/bin/yum", line 30 及 File "/usr/libexec/urlgrabber-ext-down", line 28

在执行yum命令时忽然发现出现以下报错:# yum listFile "/usr/bin/yum", line 30except KeyboardInterrupt, e: ^SyntaxError: invalid syntax原因:这是因为yum采用Python作为命令解释器,这可以从/usr/bin/yum文件中第一行#!/usr/...

2020-03-12 14:50:01 128

原创 关于xadmin后台,用户信息详情模块排版混乱的解决。

解决方案:取消密码的显示初始代码如下图:self.form_layout = ( Main( Fieldset('', 'username', 'password', css_class='unsort no...

2020-03-10 18:32:47 153

原创 SQL Server 简答题——订货管理数据库

– 一. 创建订货管理数据库create database 订货管理数据库gouse 订货管理数据库gocreate table 职工表 ( 仓库号 char(3), 职工号 char(2), 工资 int )gocreate table 仓库表 ( 仓库号 char(3), 城市 nvarchar(3), 面积 int )gocreate...

2018-11-18 22:03:18 4947

原创 贪吃蛇游戏(Java)

首款用Java语言实现的小游戏,一些模块做得不是很好,界面的设计及整体的布局比较简单,一些应该实现的的功能没有实现,一些该有的组件没有定义出来,所以仅供参考。如果您可以提出宝贵意见,我将感激不尽!游戏窗口的界面设置及主函数入口:public class SnakeDemo { public SnakeDemo() { JFrame frame = new JFrame("贪吃蛇demo1...

2018-10-24 12:34:00 244

原创 Java语言实现文本文件的加密解密

主要实现从系统磁盘读取txt文本文件,然后以二进制转换为十六进制的方式对文本进行加密,解密的原理则反之,下面为源代码:import java.awt.BorderLayout;import java.awt.Button;import java.awt.Color;import java.awt.Frame;import java.awt.Label;import java.awt.P...

2018-10-23 23:09:32 5969

2022年半导体投资策略.pdf

集成电路包括IDM和垂直分工两种模式,目前垂直分工模式逐渐崛起。IDM作为垂直产业链一体化模式,由一家厂商完成设计、制造、封测三个环节,代表厂商包括英特尔、三星、德州仪器、意法半导体等。垂直分工模式下三个环节分别由专门的厂商完成,全球IC设计企业包括高通、博通、联发科、华为海思等;IC制造企业主要有台积电、中芯国际等;IC封装测试企业主要有日月光、安靠、长电科技、通富微电、华天科技、晶方科技等。由于集成电路行业投资巨大,垂直分工模式下企业能够降低运营和研发风险,随着fabless模式在集成电路领域兴起,垂直分工模式逐渐崛起。

2022-03-23

【推荐】2021最新元宇宙报告资料合集(补充版).rar

2021年元宇宙宏观研究报告.pdf 2021元宇宙发展研究报告-清华大学126页.pdf 2021开启元宇宙营销时代【平行世界的来临】.pdf FaceBook全面拥抱元宇宙.pdf Metaverse元宇宙:游戏系通往虚拟现实的方舟.pdf 传媒-四探元宇宙,深挖互联网未来形态的核心价值.pdf 计算机行业深度研究报告:元宇宙,下一个“生态级”科技主线.pdf ……………… 等18个最新元宇宙概念文档

2021-11-17

Hive函数大全.pdf

大佬总结的hive的各种常用函数语法格式及其用法,Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等

2020-09-09

_从0到1打造企业数字化运营闭环白皮书_.pdf

市场竞争已经从增量用户竞争阶段逐步转化为存量用户竞争的阶段。在存量竞争阶段,企业的数字化运营能力将成为关键竞争力。

2020-09-09

scala-2.12.11.tar.gz

Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在Java虚拟机上,并兼容现有的Java程序。 Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。

2020-09-09

ranger-2.0.0-usersync.tar.gz

Apache Ranger™是一个框架,用于在整个Hadoop平台上启用,监视和管理全面的数据安全性。 Ranger的愿景是在Apache Hadoop生态系统中提供全面的安全性。随着Apache YARN的出现,Hadoop平台现在可以支持真正的数据湖架构。企业可以在多租户环境中运行多个工作负载。Hadoop中的数据安全性需要发展以支持多种用例进行数据访问,同时还需要提供一个框架来对安全策略进行集中管理并监视用户访问。

2020-09-08

DBeaver_jb51.rar

一款专便于连接各大数据库的工具,dbeaver是免费和开源(GPL)为开发人员和数据库管理员通用数据库工具。 易用性是该项目的主要目标,是经过精心设计和开发的数据库管理工具。免费、跨平台、基于开源框架和允许各种扩展写作(插件)。 它支持任何具有一个JDBC驱动程序数据库。 它可以处理任何的外部数据源。

2020-09-07

apache-atlas-2.0.0-server.tar.gz

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。

2020-08-27

apache-atlas-2.0.0-hive-hook.tar.gz

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。

2020-08-27

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除