自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (4)
  • 收藏
  • 关注

原创 LOAD_TEMP - Unable to get database metadata from this database connection

关于kettle 写入mysql 遇到一个问题:LOAD_TEMP - Unable to get database metadata from this database connection,报错大致如下:2021/11/26 14:05:12 - LOAD_TEMP - ERROR (version 5.3.0.0-213, build 1 from 2015-02-02_12-17-08 by buildguy) : org.pentaho.di.core.exception.KettleDa

2021-11-26 14:17:49 10859

原创 /usr/bin/ssh-copy-id: ERROR: No identities found

/usr/bin/ssh-copy-id: ERROR: No identities found

2021-11-23 23:33:27 3862

原创 Flink 运行时的组件

Flink主要资源:JobManager:作业管理器TaskManager:任务管理器ResourceManager:资源管理器Dispacher:分发器作业管理器(JobManager)控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager控制执行。JobManager会接受到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其他资源的JAR包。

2021-11-08 21:47:33 1411

原创 Flink 部署模式

一、Standalone 模式1.1 安装 解压flink-1.10.0-bin-scala_2.11.tgz,进入conf目录中。1)修改 flink/conf/flink-conf.yaml 文件:2)修改 /conf/slaves文件:3)分发给另外两台机子:4)启动:访问http://localhost:8081可以对flink集群和任务进行监控管理命令行提交任务:./flink run -c com.atguigu.w...

2021-11-08 00:38:11 147

原创 大数据技术Flink电商实时数仓DWD数据层准备--第3章 功能2:准备用户日志DWD层

们前面采集的日志数据已经保存到Kafka中,作为日志数据的ODS层,从kafka的ODS层读取日志数据分为3类:页面日志,启动日志和曝光日志。这三类数据虽然都是用户行为数据,但是有着完全不一样的数据结构,所以要拆分处理。将拆分的不同的日志写回Kafka不同主题中,作为日志DWD层。 页面日志输出到主流,启动日志输出到启动侧输出流,曝光日志输出到曝光侧输出流3.1主要任务3.1.1识别新老用户 本身客户端有新老用户的标识,但是不够准确,需要用...

2021-06-24 22:39:05 426

原创 大数据技术Flink电商实时数仓DWD数据层准备--第2章 功能1:环境搭建

2.1新建工程gmall2021-realtime2.2创建如下结构目录 作用 app 产生各层数据的flink任务 bean 数据对象 common 公共常量 utils 工具类 这里采用了java与scala语言混编,java主要写一个实体类与工具,scala主要用于写flink任务,也可以全部采用java写,写scala的主要原因是防止scala生疏。2.3修改配置文件2.3.1在pom.xml添加如下...

2021-06-24 05:55:48 338

原创 大数据技术Flink电商实时数仓DWD数据层准备--第1章 需求分析及实现思路

1.1分层需求分析 建设实时数仓的目的,主要是增加数据计算的复用性。每次新增加统计需求,不至于从原始数据进行计算,而是从半成品继续加工而成。我们这里从kafka的ods层读取用户行为日志以及业务数据,并进行简单处理,写回kafka作为dwd层。...

2021-06-17 05:56:17 525

原创 大数据技术Flink电商实时数仓-数据采集--第五章 业务数据库采集

5.1Maxwell介绍Maxwell 是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。 实时读取MySQL 二进制日志 Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。官网:http://maxwells-daemon.io/5.2 Maxwell的工作原理5.2.1MySQL主从复制过程Master 主库将...

2021-05-16 22:44:55 510

原创 大数据技术Flink电商实时数仓-数据采集--第四章 日志数据采集

4.1模拟日志生成器的作用这里提供了一个模拟生成数据的 jar 包,可以将日志发送给某一个指定的端口,需要大数据程序员了解如何从指定端口接收数据并数据进行处理的流程。(1) 拷贝/资料/数据生成脚本/行为数据的内容到 hadoop102 的/opt/module/rt_applog目录[hadoop@hadoop102 rt_applog]$ pwd/opt/module/rt_applog[hadoop@hadoop102 rt_applog]$ ll总用量 15284-rw-.

2021-05-16 16:40:47 541

原创 大数据技术Flink电商实时数仓-数据采集--第三章 仓库架构分析

3.1离线架构分析3.2实时架构埋点用户行为数据:用户在使用产品过程中,与客户端产品交互过程中产生的数据,比如页面浏览、点击、停留、评论、点赞、收藏等。

2021-05-15 11:00:14 191

原创 大数据技术Flink电商实时数仓-数据采集--第二章 实时需求概览

2.1离线计算与实时计算的比较离线计算:就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是 Hadoop 的 MapReduce 方式;一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。从技术操作的角度,这部分属于批处理的操作。即根据确定范围的数据一次性计算。实时计算:输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据.

2021-05-15 10:42:21 329

原创 大数据技术Flink电商实时数仓-数据采集--第一章 实时数据介绍

1.1 普通实时计算与实时数仓的比较普通实时计算优先考虑时效性,所以从数据采集经过实时计算直接得到结果,如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以面对大量实时需求的时候,计算的复用性较差,开发成本随着需求直线上升。实时数仓基于一定的数据仓库理论,对数据处理流程进行规划,分层,目的是提高数据的复用性。1.2 实时电商数仓,项目分为以下几层ODS :原始数据,日志和业务数据。 DWD:根据数据对象为单位进行分流,比如订单,页面访问等等。 DIM:维度.

2021-05-14 09:49:37 479

原创 关于scala 对象转Json字符串问题

关于scala 对象转Json字符串问题问题:今天在开发的过程中遇见一个问题:用scala 写的类,用fastJson对象转json字符串的时没有获取到相关的字段以及字段的值。原因:FastJson 在进行对象转Json字符串的时候会用到Java类的getter,setter 方法,而Scala 的get,set 方法与Java 的写法是不一样的:getter:def foo():T setter: def foo_(val:T):Unit。所以直接采用 JSON.toJSONString(obje

2021-04-12 17:16:49 858

转载 为什么HashMap的加载因子是0.75

HashMap是我们在开发程序的时候经常去使用的,除了要准备面试,我们一般很少关注HashMap的底层是怎么写的,更别说关注这个加载因子是0.75了,那笔者为什么要关注也就不言而喻了。本文主要有以下内容:为什么HashMap需要加载因子?解决冲突有什么方法?为什么加载因子一定是0.75?而不是其他数?为什么HashMap需要加载因子?HashMap 的底层是哈希表,是存储键值对的结构类型,它需要通过一定的计算才可以确定数据在哈希表中的存储位置:static final int hash(O

2021-04-12 14:56:06 123

原创 mvn 打包 PKIX path building failed:

上编文章是在idea解决了maven PKIX path building failed问题但是没有根本解决问题,直接用mvnparkage还是有这个问题。就是因为没有给中心库授权,我这里用的是maven.aliyun.com如图:解决方法:下载 :InstallCert.java1、执行命令:javacInstallCert.java2、执行命令...

2019-02-28 09:18:08 1341

原创 maven PKIX path building failed

最近用idea创建maven web 项目 死活创建不出来 报的错是:maven PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path   在网上找了很多都是关于maven远程库的修改 我修改了 阿里...

2019-02-26 21:52:12 5529 11

原创 关于spring和Xfire的整合

网上现在有很多这类文章,我看的是一知半解的。自己写一个自己看懂的作为记录。(所用的编译器是myeclipse 6.5) 做的项目是半路加的webservice,右点击项目->myeclipse->Add Xfire… 直接点击finish。这个时候就生成了WebSevice文件(这个可以不用管,因为我们这是使用spring管理的),看一下web.xml这个文件是不是生成了关于xfire的配置。如

2016-07-01 10:33:39 768

模拟数据jar包.zip

生成用户行为数据

2021-05-16

gmall0820-logger-0.0.1-SNAPSHOT.jar

用户行为数据采集服务,发送到kafka

2021-05-16

maxwell-1.19.4.tar.gz

读取mysql binlog文件。

2021-04-11

InstallCert.zip

mvn PKIX path building failed: 进行中央库授权, unable to find valid certification path to requested target

2019-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除