Doctor_96-CSDN博客

原创 Hadoop之本地运行模式基本环境配置

Hadoop 环境配置非专业生产环境配置JDK安装包：jdk-8u212-linux-x64.tar.gz 提取码：l5goHadoop安装包：hadoop-3.1.3.tar.gz 提取码：2juv1.服务器准备1.1 配置必要的环境（初始化状态下的服务器）yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop配置成功：1.2 配置

2020-05-14 17:23:10 1111

原创 Redis集群扩容实战指南：从原理到生产环境最佳实践

通过以上步骤，可以有效地完成Redis集群在扩容时的Slots迁移规划和实施工作，确保集群的稳定性和业务的连续性。

2025-03-17 17:43:05 1017

原创 org.apache.flink.table.api.ValidationException: Expected LocalReferenceExpression. Got: timestamp

情景：在设置滑动窗口时遇到的问题，详细代码如下：table.window(Slide.over(lit(1).hours()).every(lit(5).minutes()).on(($("timestamp").rowtime()).as("ts")).as("w")).groupBy($("w"), $("itemId")).select($("itemId"), $("itemId").count().as("itemCout"), $("w").end().as("windowEnd")).

2020-09-24 11:41:51 1916

原创 Flink 之 ProcessFunction API

一概述转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下，极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此，DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件，例如超时事件等。Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)。例如，Flink SQL就是使用

2020-09-21 16:30:41 258

原创 Flink 之时间语义与Wartermark

一、时间语义1、Event Time ：事件创建的时间1）一般情况下是从日志数据或者业务数据的时间戳（timestamp）中提取。2）通过执行环境调用setStreamTimeCharacteristic(TimeCharacteristic.EventTime)来进行设置3）在Event Time模式处理数据流的情况下，Flink会根据数据中的时间戳来处理基于时间的算子。2、Ingestion Time ：事件进入Flink的时间3、Processing Time ：执行操作算子的本地系统

2020-09-21 15:39:57 431

原创 Flink 之Window介绍与使用

流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数据集，而Window窗口是一种切割无限数据为有限块进行处理的手段。Window是无限数据流处理的核心，Window将一个无限的stream拆分成有限大小的”buckets”桶，我们可以在这些桶上做计算操作。

2020-09-20 20:42:22 243

原创 Flink 之CEP介绍及应用

1、什么是CEP？CEP即复杂事件处理（Complex Event Processing，CEP）。Flink CEP是在 Flink 中实现的复杂事件处理（CEP）库。CEP 允许在无休止的事件流中检测事件模式，让我们有机会掌握数据中重要的部分。一个或多个由简单事件构成的事件流通过一定的规则匹配，然后输出用户想得到的数据 —— 满足规则的复杂事件。CEP用于分析低延迟、频繁产生的不同来源的事件流。CEP可以帮助在复杂的、不相关的事件流中找出有意义的模式和复杂的关系，以接近实时或准实时的获得通知

2020-09-18 22:37:15 3040

原创 Flink 之状态一致性浅述

1. 概念有状态的流处理，内部每个算子任务都可以有自己的状态对于流处理器内部来说，所谓的状态一致性，其实就是我们所说的计算结果要保证准确。一条数据不应该丢失，也不应该重复计算在遇到故障时可以恢复状态，恢复以后的重新计算，结果应该也是完全正确的。2. 分类AT-MOST-ONCE（最多一次）当任务故障时，最简单的做法是什么都不干，既不恢复丢失的状态，也不重播丢失的数据。At-most-onceAT-LEAST-ONCE（至少一次）在大多数的真实应用场景，我们希望不丢失事件。这种类

2020-09-17 20:23:45 429

原创 Flink 之容错机制相关配置

一、checkpoint 配置获取流执行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);启用检查点机制，并修改默认的检查点保存间隔500ms为1000msenv.enableCheckpointing(1000L);通过获取检查点配置进行相应的配置 env.getCheckpointConfig() ；设置检查

2020-09-17 13:49:47 657

原创 Flink 之容错机制浅析

在分布式系统中，服务故障是常有的事，为了保证服务能够7*24小时稳定运行，像Flink这样的流处理器故障恢复机制是必须要有的。显然这就意味着，它(这类流处理器)不仅要能在服务出现故障时候能够重启服务，而且还要当故障发生时，保证能够持久化服务内部各个组件的当前状态，只有这样才能保证在故障恢复时候，服务能够继续正常运行，好像故障就没有发生过一样。

2020-09-17 13:04:35 168

原创 BI工具 vs 定制可视化

使用人群BI：数据分析师、运营团队可视化：管理人员、客户交互平台BI：电脑、互动性极强可视化：电脑、手机、iPad、挂屏专业性BI：专业性更强，扩展性强，界面相对朴实可视化：专业性弱，扩展性弱，观赏性更强需求变更难度BI：修改更方便，只需要进行相应的配置，操作简单可视化：需要前端定制开发，除非有定制化大屏服务，比如：阿里云的DataV...

2020-09-08 10:25:36 427

原创公共层和数据集市层的区别和特点？(高频)

公共维度模型层（CDM）：存放明细事实数据、维表数据及公共指标汇总数据，其中明细事实数据、维表数据一般根据 ODS 层数据加工生成：公共指标汇总数据一般根据维表数据和明细事实数据加工生成。CDM 层又细分为 DWD 层和 DWS 层，分别是明细数据层和汇总数据层，采用维度模型方法作为理论基础，更多地采用一些维度退化手法，将维度退化至事实表中，减少事实表和维表的关联，提高明细数据表的易用性：同时在汇总数据层，加强指标的维度退化，采取更多的宽表化手段构建公共指标数据层，提升公共指标的复用性

2020-09-07 23:13:23 4182

原创 canal进程启动后，kafka无法实时消费数据，问题排查思路

1、查看mysql中是否为canal赋权限在mysql中执行GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%' IDENTIFIED BY 'canal' ;执行show grants for 'canal';查看权限2、查看/etc/my.cnf中是否开启binlog# 设置安全策略，0的安全级别最低，2的级别最高，密码长度为1validate_password_policy=0validate

2020-09-02 08:24:53 1243

原创 Error while executing topic command : Replication factor: 1 larger than available brokers: 0.异常的解决方案

以上两张截图抛出异常类似，但原因不同原因分析：1、可能是Kafka的集群没能正常运行2、可能是Kafka的某个进程挂掉了3、可能是命令书写有误解决方案：1、检查kafka集群状态是否正常，执行 jps命令2、检查命令书写是否正确错误写法：bin/kafka-topics.sh --zookeeper hadoop102:2181 \--create --topic partitionsTest --partitions 4 --replication-factor 1正确写法1：..

2020-08-27 16:35:40 6331

原创 IDEA中连接Redis集群时抛出异常：CLUSTERDOWN Hash slot not served 的问题解决

Caused by: redis.clients.jedis.exceptions.JedisClusterException: CLUSTERDOWN Hash slot not served或者：原因分析：集群的hash槽没有提供，,即已启动Redis的主从节点实例服务，但没有将这些实例合并成一个集群解决方案：1：在redis的安装目录下的src目录下，执行如下命令：./redis-trib.rb create --replicas 1 192.168.1.102:6379 192.16

2020-08-25 21:49:28 9718 1

原创 reids集群搭建踩坑

1 无法连接节点>>> Creating cluster[ERR] Sorry,can't connect to node 192.168.1.102:6379解决方案：1、修改reids.conf配置文件中的bind 127.0.0.1 为本机地址2、设置protected-mode no3、关闭appendonly appendonly no2 ERR Invalid node address specified: hadoop102:6379解决方案：地址

2020-08-24 21:24:28 513

原创 ERROR: Check hive‘s usability failed, please check the status of your cluster问题解决

情景：启动Kylin时抛出异常原因分析：检查hive的环境变量配置是否有误启动hive客户端，观察是否异常hive连接超时，与电脑性能相关，check-hive-usability.sh文件中默认设置为60秒，可根据自己电脑适当调整。...

2020-08-13 18:31:56 972

原创 HBase 优化之四大法宝

HBase 优化主要有四大方法：预分区、RowKey设计、内存优化、基础优化1、预分区每一个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey范围，则该数据交给这个region维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高HBase性能。手动设定预分区create 'staff1','info','partition1',SPLITS => ['1000','2000','3000','4000']

2020-08-03 20:49:41 309

原创 HBase 简单介绍

逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像是一个multi-dimensional map。1. HBase 逻辑架构2. HBase 概念介绍2.1 结构概念Namespace命名空间，类似于关系型数据库的database概念，每个命名空间下有多个表。HBase两个自带的命名空间，分别是hbase和default，hbase中存放的是HBase内置的表，default表是用户默认使用的命名

2020-08-03 20:21:37 247

原创 Azkaban和Oozie的区别

Azkaban和0ozie的区别:Azkaban是轻量级的，0ozie是重量级的。Azkaban配置文件用yaml语法，Oozie用xmlAzkaban功能功能简单(但能满足工作日常需要)，0ozie功能复杂Azkaban只依赖mysql,Oozie依赖于hadoopAzkaban在脚本所在位置执行命令/程序，0ozie在Hadoop集群生态内执行命令/程序...

2020-07-31 23:35:44 1401

原创 Azkaban上传文件报如下异常

Azkaban上传文件报如下异常Error loading flow yaml file basic.flow:java.nio.charset.MalformedInputException: Input length = 1解决方案：更改文件的编码格式为ANSI

2020-07-31 21:43:38 1774

原创 Error:(6, 17) java: 程序包org.junit不存在 Error:(12, 6) java: 找不到符号符号:类Test 位置:类——程序包不存在的解决方案

背景：环境：IDEA2020.1+Maven3.5.4+hadoop本地仓库配置正确，且本地仓库中有程序所需要的包，但是编译总是抛出如图所示的错误解决方案：1. 更换Maven版本为3.6.x（3.6.0, 3.6.1, 3.6.2, 3.6.3）都可以尝试一下2. 一方案行不通的话，使用IDEA默认的Maven版本，仅更改本地仓库路径...

2020-05-20 13:21:33 7806

原创 Hadoop之伪分布式模式基本环境配置及运行测试

前言Hadoop基本环境已配置好，三大模式之本地运行模式已测试成功，详情请参考上一篇文章：Hadoop之本地运行模式基本环境配置1 检查单服务器下的环境配置vim /opt/module/hadoop-3.1.3/etc/hadoop/hadoop-env.sh2 配置HDFS集群2.1 配置/opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml文件vim /opt/module/hadoop-3.1.3/etc/hadoop/core-site

2020-05-15 22:38:00 565

原创 java.net.BindException: Problem binding to [hadoop21:8031] java.net.BindException: 无法指定被请求的地址

java.net.BindException: Problem binding to [hadoop101:9820] java.net.BindException: 无法指定被请求的地址; For more details see: http://wiki.apache.org/hadoop/BindException可能原因及解决方案1.查看9820端口是否被占用netstat -anp |grep 98202.查看hadoop101是否为当前服务器名cat /etc/hostna

2020-05-15 20:39:35 1794

原创 SyntaxError: Generator expression must be parenthesized解决方案

由于django 1.11版本和python3.7版本不兼容, 2.0版本以后的Django修复了这个问题Unhandled exception in thread started by <function check_errors.<locals>.wrapper at 0x7fa26be637b8>Traceback (most recent call last):...

2020-04-08 00:51:56 6692 1

原创 Linux服务器的Nginx配置

环境： CentOS7.3 64位 Nginx1.16.1版本安装pcre依赖yum -y install pcre*安装openssl依赖yum -y install openssl*获取nginx压缩包wget http://nginx.org/download/nginx-1.16.1.tar.gz解压nginx压缩包tar -z...

2020-04-07 23:11:42 421

原创 Java基于数组的客户信息管理（文本界面）

基于Java数组的客户信息管理系统

2020-04-02 00:07:25 370

原创 CentOS的Python3安装

编译器安装:yum -y install gcc依赖包安装：yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel gcc gcc-c++ openssl-devel libffi-devel python-devel mariadb-devel获取安装包： w...

2020-03-16 20:45:39 144

原创 Error downloading packages: epel-release-7-12.noarch: [Errno 5] [Errno 8] Exec format error

Error downloading packages: epel-release-7-12.noarch: [Errno 5] [Errno 8] Exec format errorCentOS的yum安装出现这种情况时运行cat /usr/bin/yum保证该文件的第一行设置为"#!/usr/bin/python2.7"，若你设置python软连接是python2，则设置为"#!/...

2020-03-12 15:17:31 1576 1

原创常规问题解决：File "/usr/bin/yum", line 30 及 File "/usr/libexec/urlgrabber-ext-down", line 28

在执行yum命令时忽然发现出现以下报错：# yum listFile "/usr/bin/yum", line 30except KeyboardInterrupt, e: ^SyntaxError: invalid syntax原因：这是因为yum采用Python作为命令解释器，这可以从/usr/bin/yum文件中第一行#!/usr/...

2020-03-12 14:50:01 190

原创关于xadmin后台，用户信息详情模块排版混乱的解决。

解决方案：取消密码的显示初始代码如下图：self.form_layout = ( Main( Fieldset('', 'username', 'password', css_class='unsort no...

2020-03-10 18:32:47 195

原创 SQL Server 简答题——订货管理数据库

– 一. 创建订货管理数据库create database 订货管理数据库gouse 订货管理数据库gocreate table 职工表 ( 仓库号 char(3), 职工号 char(2), 工资 int )gocreate table 仓库表 ( 仓库号 char(3), 城市 nvarchar(3), 面积 int )gocreate...

2018-11-18 22:03:18 5232

原创贪吃蛇游戏（Java）

首款用Java语言实现的小游戏，一些模块做得不是很好，界面的设计及整体的布局比较简单，一些应该实现的的功能没有实现，一些该有的组件没有定义出来，所以仅供参考。如果您可以提出宝贵意见，我将感激不尽！游戏窗口的界面设置及主函数入口：public class SnakeDemo { public SnakeDemo() { JFrame frame = new JFrame("贪吃蛇demo1...

2018-10-24 12:34:00 290

原创 Java语言实现文本文件的加密解密

主要实现从系统磁盘读取txt文本文件，然后以二进制转换为十六进制的方式对文本进行加密，解密的原理则反之，下面为源代码：import java.awt.BorderLayout;import java.awt.Button;import java.awt.Color;import java.awt.Frame;import java.awt.Label;import java.awt.P...

2018-10-23 23:09:32 6062

modsecurity-2.9.6.tar.gz

2025-05-08

Hive函数大全.pdf

大佬总结的hive的各种常用函数语法格式及其用法，Hive内部提供了很多函数给开发者使用，包括数学函数，类型转换函数，条件函数，字符函数，聚合函数，表生成函数等等

2020-09-09

_从0到1打造企业数字化运营闭环白皮书_.pdf

市场竞争已经从增量用户竞争阶段逐步转化为存量用户竞争的阶段。在存量竞争阶段，企业的数字化运营能力将成为关键竞争力。

2020-09-09

2022年半导体投资策略.pdf

集成电路包括IDM和垂直分工两种模式，目前垂直分工模式逐渐崛起。IDM作为垂直产业链一体化模式，由一家厂商完成设计、制造、封测三个环节，代表厂商包括英特尔、三星、德州仪器、意法半导体等。垂直分工模式下三个环节分别由专门的厂商完成，全球IC设计企业包括高通、博通、联发科、华为海思等；IC制造企业主要有台积电、中芯国际等；IC封装测试企业主要有日月光、安靠、长电科技、通富微电、华天科技、晶方科技等。由于集成电路行业投资巨大，垂直分工模式下企业能够降低运营和研发风险，随着fabless模式在集成电路领域兴起，垂直分工模式逐渐崛起。

2022-03-23