2020年10月_Knight_AL

原创 Flink_CEP简介

目录一.什么是CEP二.CEP的特点三.Pattern API四.个体模式+组合模式+模式组个体模式模式序列(也叫组合模式)五.模式的检测六.匹配事件的提取七.超时事件的提取一.什么是CEP二.CEP的特点三.Pattern API四.个体模式+组合模式+模式组个体模式个体模式的条件模式序列(也叫组合模式)五.模式的检测六.匹配事件的提取七.超时事件的提取...

2020-10-30 22:36:34 589

原创 Flink-电商用户行为分析(页面广告点击量统计-黑名单过滤）_2

数据https://pan.baidu.com/s/1s0ie5jo8o9cXvYY5G14wQ提取码：6nbw对于广告的统计，最简单也最重要的就是页面广告的点击量，网站往往需要根据广告点击量来制定定价策略和调整推广方式，而且也可以借此收集用户的偏好信息。更加具体的应是，我们可以根据用户的地理位置进行划分，从而总结出不同省份用户对不同广告的偏好，这样更有助于广告的精准投放。需求：接下来我们就进行页面广告按照省份划分的点击量的统计，然后开一小时的时间窗口，滑动距离为 5 秒，统计窗口内的点击事件数

2020-10-30 17:34:16 554

原创 Flink-电商用户行为分析(APP市场推广渠道统计)_分渠道统计+不分渠道统计_2

随着智能手机的普及，在如今的电商网站中已经有越来越多的用户来自移动端，相比起传统浏览器的登录方式，手机 APP 成为了更多用户访问电商网站的首选。对于电商企业来说，一般会通过各种不同的渠道对自己的 APP 进行市场推广，而这些渠道的统计数据（比如，不同网站上广告链接的点击量、APP 下载量）就成了市场营销的重要商业指标。首先我们考察分渠道的市场推广统计。由于没有现成的数据，所以我们需要**自定义一个测试源来生成用户行为的事件流**。分渠道统计import java.s

2020-10-29 22:09:46 312

原创 Flink-处理乱序数据和迟到数据的总结和解决办法

Flink有三重保证watermark可以设置延迟时间window的allowedLateness方法，可以设置窗口允许处理迟到数据的时间window的sideOutputLateData方法，可以将迟到的数据写入侧输出流我以我之前做的项目进行优化https://blog.csdn.net/qq_46548855/article/details/107170533看看乱序数据(大约最大时间相差50s，那么我设置成1分钟)提醒：尽量不要watermark不要设置成60s，因为10:13.50

2020-10-29 18:07:00 2460

原创 Flink:Caused by: java.lang.NumberFormatException: Not a version: 9

Exception in thread "main" org.apache.flink.shaded.guava18.com.google.common.util.concurrent.UncheckedExecutionException: java.lang.NumberFormatException: Not a version: 9 at org.apache.flink.shaded.guava18.com.google.common.cache.LocalCache$Segment.get(L

2020-10-28 22:03:30 525

原创 MetaException(message:Required table missing : “DBS“ in Catalog ““ Schema ““. DataNucleus requires t

2020-10-27 18:31:04: Starting Hive Metastore ServerMetaException(message:Required table missing : "DBS" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your MetaData is incorrect, or you need to enabl

2020-10-28 11:33:45 2207

原创格式化时间(parse,format,Timestamp)

将17/05/2015:10:05:43数据格式化成时间戳—parseimport java.text.SimpleDateFormatobject test { def main(args: Array[String]): Unit = { val a = "17/05/2015:10:05:43" val simpleDateFormat = new SimpleDateFormat("dd/MM/yyyy:HH:mm:ss") val date = simple..

2020-10-27 21:02:03 999

原创如何在官网下载hbase

如果你不想看下面的步骤，可以直接进这个网址https://downloads.apache.org/这里应有尽有（hadoop zookeeper…）想要的版本都有

2020-10-26 22:21:40 1838

原创 Kylin_定时调度脚本

Kylin提供了Restful API，因次我们可以将构建cube的命令写到脚本中，将脚本交给azkaban或者oozie这样的调度工具，以实现定时调度的功能。不会写看kylin官网中得Restful APIhttps://kylin.apache.org/docs/howto/howto_use_restapi.html#query对于xxxxxxx是账号和密码:ADMIN:KYLIN但是需要用Base64加密，直接在百度搜Base64在线加密定时调度脚本#!/bin/bashcube_

2020-10-25 20:35:33 698

原创 Azkaban详细操作

数仓流程图创建job文件（1）mysql_to_hdfs.jobtype=commandcommand=/home/donglin/bin/mysql_to_hdfs.sh all ${dt}（2）hdfs_to_ods_log.jobtype=commandcommand=/home/donglin/bin/hdfs_to_ods_log.sh ${dt}（3）hdfs_to_ods_db.jobtype=commandcommand=/home/donglin/bin/hdfs

2020-10-24 21:56:47 497

原创 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing at org.apache.hadoop.hbase.master.HMaster.checkInitialized(HMaster.java:2452) at org.apache.hadoop.hbase.master.HMaster.checkNamespaceManagerReady(HMaster.java:2457) at org.apach

2020-10-22 20:06:39 516

原创 Hbase高级-数据真正删除

创建表create 'stu9','info' 插入数据put 'stu9','1001','info:name','haiwang'put 'stu9','1001','info:name','wuwukai'put 'stu9','1001','info:name','white' 刷写flush 'stu9'结果(刷写，rowkey相同，显示最新时间戳) 插入数据+刷写put 'stu9','1002','info:name','labi'flush '..

2020-10-20 13:21:28 783 1

原创 Hive内部表和外部表的区别详讲

内部表和外部表区别元数据，原始数据删除数据时：内部表：元数据，原始数据全部删除外部表：只删除元数据在公司生产环境下，什么时候创建内部表，什么时候创建外部表？在公司中绝大多数场景都是外部表自己使用的临时表，才会创建内部表；测试理解创建内部表t1create table t1(name string,age int)row format delimited fields terminated by "/t";查看表的结构3.加载数据数据内容xiaoxin 5huya

2020-10-20 09:59:19 630

原创 HBase-时间戳用来标识版本

VERSIONS版本是什么意思?VERSIONS相当于时间戳实例插入数据put 'stu10','1003','info:name','xiaoxin'put 'stu10','1003','info:name','xiaoxin1'put 'stu10','1003','info:name','xiaoxin2'put 'stu10','1003','info:name','xiaoxin3'put 'stu10','1003','info:name','xiaoxin4'put

2020-10-19 21:45:40 1475 1

原创 HBase-每次flush的VESION个数的限制

创建表create 'stu10','info' 插入数据put 'stu10','1003','info:name','xiaoxin'put 'stu10','1003','info:name','xiaoxin1'put 'stu10','1003','info:name','xiaoxin2'put 'stu10','1003','info:name','xiaoxin3'put 'stu10','1003','info:name','xiaoxin4'put 'stu1..

2020-10-19 18:16:55 165 1

原创 Caused by: java.lang.IllegalStateException: failed to obtain node locks, tried [[/export/servers/ela

Caused by: java.lang.IllegalStateException: failed to obtain node locks, tried [[/export/servers/elasticsearch-6.3.1/data/donglin]] with lock id [0]; maybe these locations are not writable or multiple nodes were started without increasing [node.max_local_s

2020-10-19 15:27:52 1569 1

原创 hive中round、floor、ceil区别及用法

round(四舍五入)浮点数四舍五入：select round(1.4); 结果：1select round(1.6); 结果：2浮点数取两位小数：select round(1.04234,2); 结果：1.04select round(1.04634,2); 结果：1.05floor(向下取整)select floor(1.3); 结果：1ceil(向上取整)select ceil(1.3); 结果：2...

2020-10-17 21:57:31 1113

原创给予普通用户root权限

创建普通用户donglinuseradd donglin 为donglin用户设置密码passwd donglin 赋予donglin用户root权限输入：visudo## Allow root to run any commands anywhereroot ALL=(ALL) ALLdonglin ALL=(ALL) NOPASSWD:ALL 在/export目录修改为donglinchown -R donglin:dongli..

2020-10-17 17:05:58 399

原创 Hadoop 3.1.3的安装部署(HA)

目录HDFS HA搭建ResouceManager HA搭建启动集群HDFS HA搭建（1）上传压缩包到software文件夹，并进行解压[root@hadoop202 servers]# cd /export/software/[root@hadoop202 software]# tar -zxvf hadoop-3.1.3.tar.gz -C /export/servers/（2）分发export目录下hadoop文件夹[root@hadoop202 software]# cd /expo

2020-10-17 11:39:58 1707 2

原创 Hive2.3的安装部署

安装Hive2.31）上传apache-hive-2.3.0-bin.tar.gz 到/opt/software目录下，并解压到/opt/module[donglin@hadoop102 software]$ tar -zxvf apache-hive-2.3.6-bin.tar.gz -C /opt/module/2）修改apache-hive-2.3.6-bin名称为hive[donglin@hadoop102 module]$ mv apache-hive-2.3.6-bin hive3

2020-10-16 12:47:38 536

原创大数据之CDH数仓(23) | 集群管理之卸载CDH

停止所有服务1）停止所有集群服务2）停止CMservice停用并移除Parcels对我们安装的parcels，依次执行停用、仅限停用状态、从主机删除删除集群点击要删除的Cluster右侧的下拉箭头，点击删除卸载Cloudera Manager Server1）停止Cloudera Manager Server2）卸载Cloudera Manager Server[root@hadoop102 ~]# yum remove cloudera-manager-server卸载Cl

2020-10-15 20:01:14 964

原创大数据之CDH数仓(22) | 集群管理之节点的添加和删除

准备新节点1）准备一台新的阿里云ECS服务器，并确保其和之前的集群位于同一地域，以及同一个安全组，主机名为hadoop105。（1）相同地域（2）相同安全组（3）主机名2）安装jdk，如果集群启用了Kerberos，还需安装Kerberos客户端，并做相应的配置。（1）安装jdk将jdk解压到/usr/java/目录下，并编辑/etc/profile，声明JAVA_HOME（2）安装Kerberos客户端，并作相应配置安装Kerberos客户端yum install -y krb5

2020-10-15 14:10:02 1867

原创大数据之CDH数仓(21) | NameNode元数据备份

选择活动的NameNode进入安全模式选择保存Namespace进入活动namenode所在服务器备份[root@hadoop102 ~]# mkdir /root/namenode_back[root@hadoop102 ~]# tar -zcvf /root/namenode_back/nn_back.tar.gz /dfs/nn/备份MySQL元数据在MySQL所在节点运行以下命令：[root@hadoop102 ~]# mysqldump -u root -p -A >

2020-10-14 21:06:27 685

原创大数据之CDH数仓(20) | 测试之邮件报警

点击Cloudera Management Service填写邮箱配置邮件服务器协议：smtp协议默认端口为25，但阿里云ECS默认禁封25端口，smtps使用465端口。邮件服务器主机名称：自己选择，可用smtp.163.com、smtp.qq.com等邮件服务器用户名：对应邮件服务器的邮箱账号，用此账号发邮件邮件服务器密码：邮件服务器用户名对应的密码邮件发件人地址：发件人地址一般可以与邮件服务器用户名一样邮件收件人: 接收报警信息的地址，可为任意可用邮件地址重启Cloudera Man

2020-10-14 18:05:23 939

原创大数据之CDH数仓(19) | 测试之集群资源管理

CM提供了众多的资源KPI指标，以及丰富的可视化的资源分配、运维和监控界面。运维人员能在单一管理界面配置、监控和导出实时的系统集群资源状态、管理规则以及分用户、任务的使用状况。CDH 以及 CM 能同时满足动态以及静态的资源管理。动态资源池可以提供基于 YARN 的动态资源隔离能力，静态资源池可以提供基于 Linux 容器技术的静态资源隔离能力。动态资源池Yarn默认有三种调度器——FIFO、Capacity以及Fair Scheduler，CDH推荐使用Fair Scheduler。通过动态资源池

2020-10-14 09:46:21 886

原创大数据之CDH数仓(18) | 测试之集群性能测试

DFSIO测试在Hadoop中包含很多的基准测试，用来验证集群的HDFS是不是设置合理，性能是不是达到预期，DFSIO是Hadoop的一个基准测试工具，被用来分析集群HDFS的I/O性能。DFSIO后台执行MapReduce框架，其中Map任务以并行方式读写文件，Reduce任务用来收集和汇总性能数字。可以通过这个基准测试对比吞吐量、IO速率的结果以及整个磁盘的原始速度，来确定你的集群是否得到了期待的性能。另外，可以通过这些测试中指标的严重偏差发现集群中一个或多个问题节点，结合监控系统一起使用能够更好的

2020-10-13 13:51:58 1748

原创大数据之CDH数仓(17) | Sentry授权实战

Sentry授权实战使用Sentry进行授权管理，需要使用Sentry的管理员用户对其他用户进行授权，授权的方式有两种，一是通过HUE进行可视化操作，一是使用HIVE中的授权语句进行操作。Sentry实战之HUE1）配置HUE支持Sentry在HUE配置项中搜索“Sentry”，勾选Sentry。1）查看Sentry权限管理中的管理员组。在Sentry的配置项中搜索“管理员组”，其中包括hive、impala，只有当某用户所属组位于其中时，才可为其他用户授予权限。2）在Hive集群所有节点

2020-10-13 12:05:53 847

原创大数据之CDH数仓(16) | Sentry概述+安装

Sentry概述cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。kerberos主要负责平台用户的用户认证，sentry则负责数据的权限管理。Sentry是什么Apache Sentry是Cloudera公司发布的一个Hadoop开源组件，它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry提供了对Hadoop集群上经过身份验证的用户和应用程序的数据控制和强制执行精确级别权限的功能。Sentry目前可以与Apache Hive，Hive Me

2020-10-12 15:24:52 1118

原创大数据之CDH数仓(15) | Kerberos常见问题

目录Kerberos启动后台日志提示异常：No such file or directory - while initializing database for realm HADOOP.COMkinit通过keytab认证出现异常kinit认证时密码输入正确却提示密码错误创建数据库异常Zookeeper集群启动异常Hue启动，Kerberos Ticket Renewer起不来Kerberos启动后台日志提示异常：No such file or directory - while initializin

2020-10-12 13:42:14 1104

原创大数据之CDH数仓(14) | 安全之Kerberos安全认证

Kerberos数据库操作登录Kerberos数据库

2020-10-11 22:21:18 1160

原创大数据之CDH数仓(13) | Kerberos安装

server节点安装kerberos相关软件[root@hadoop102 ~]# yum install -y krb5-server krb5-workstation krb5-libs#查看结果[root@hadoop102 ~]# rpm -qa | grep krb5krb5-devel-1.15.1-37.el7_7.2.x86_64krb5-server-1.15.1-37.el7_7.2.x86_64krb5-workstation-1.15.1-37.el7_7.2.x86_6

2020-10-11 14:44:46 345

原创大数据之CDH数仓(12) | Kerberos概述

什么是KerberosKerberos是一种计算机网络授权协议，用来在非安全网络中，对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构，并且能够进行相互认证，即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、保护数据完整性等场合，是一种应用对称密钥体制进行密钥管理的系统。Kerberos不是k8s，Kubernetes简称k8s，是一个开源的，用于管理云平台中多个主机上的容器化的应用，跟我们今天学的Kerbe

2020-10-11 10:28:08 1018

原创大数据之CDH数仓(11) | 数仓之即席查询数仓搭建

Impala安装添加服务选择Impala服务角色分配配置Impala启动Impala安装成功配置Hue支持Impala1）进入HUE配置页面，搜索“impala”，开启HUE中的impala服务2）搜索“hue_safety_valve.ini 的 Hue 服务高级配置代码段（安全阀）”，输入以下代码段，确定HUE支持impala搜索引擎[impala]server_host=hadoop102server_port=21050Impala基于Hue查询打开Hue进入impa

2020-10-10 22:06:49 570

原创大数据之CDH数仓(10) | Oozie基于Hue实现GMV指标全流程调度

在Hue中创建Oozie任务GMV1）生成新的业务数据CALL init_data('2019-02-12',300,200,300,FALSE);2）将oozie调度脚本上传到HDFS[root@hadoop102 bin]# sudo -u hive hadoop fs -mkdir /user/hive/bin/[root@hadoop102 bin]# cp /root/bin/*.sh /var/lib/hive/[root@hadoop102 bin]# sudo -u hive

2020-10-10 21:31:16 321

原创大数据之CDH数仓(9) | 数仓之业务数仓搭建

业务数据生成建表语句1）通过SQLyog创建数据库gmall2）设置数据库编码3）导入建表语句（1建表脚本）选择->1建表脚本.sql4）重复步骤3的导入方式，依次导入：2商品分类数据插入脚本、3函数脚本、4存储过程脚本。生成业务数据1）生成业务数据函数说明init_data ( do_date_string VARCHAR(20) , order_incr_num INT, user_incr_num INT , sku_num INT , if_truncate BOOLEAN

2020-10-10 16:21:08 828

原创大数据之CDH数仓(8) | 数仓之用户行为数仓搭建

用户行为日志生成1）将log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar上传到hadoop102的/opt/module目录2）分发log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar到hadoop103[root@hadoop102 module]# xsync log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar3）在/root/bin目

2020-10-09 22:49:44 1206 1

空空如也

空空如也