自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 DataStream API

1.创建一个实现SourceFunction的类,创造数据//声明一个标志位@Override//生成随机数据//自定义选取的数据集id=1","./prod?id=2"};//循环生成的数据}}@Override}}2.实现自定义source输出/*用户自定义source测试*/}}

2022-10-18 23:08:08 662 1

原创 Flink部署

可以引入插件 maven-assembly-plugin 进行打包。在 FlinkTutorial 项目的 pom.xml 文件中添加打包插件的配置。执行脚本命令向 YARN 集群申请资源,开启一个 YARN 会话,启动 Flink 集群。修改conf的masters和workers。在hadoop103上开启。开放hadoop102。

2022-10-12 20:27:41 509

原创 Flink快速入门

添加项目依赖配置日志管理在目录 src/main/resources 下添加文件:log4j.properties,内容配置如下编写代码批处理在words.txt中输入一些文字新建 Java 类 BatchWordCount,在静态 main 方法中编写测试代码。

2022-10-09 18:52:44 507

原创 Zabbix

安装Software Collections仓库。安装zabbix的yum仓库。

2022-10-07 20:52:27 188

原创 Presto

进入到/opt/module/presto目录,并创建存储数据文件夹创建存储配置文件文件夹进入etcPresto可以支持多个数据源,在Presto里面叫catalog,这里我们配置支持Hive的数据源,配置一个Hive的catalog分发之后,分别进入hadoop102、hadoop103、hadoop104三台主机的/opt/module/presto/etc的路径。配置node属性,node id每个节点都不一样。Presto是由一个coordinator节点和多个worker节点组成。

2022-10-06 15:59:46 97

原创 Kylin

1.hbase-env.sh修改内容2.hbase-site.xml修改内容4.软连接hadoop配置文件到HBase。

2022-10-05 17:44:05 138

原创 Superset

Miniconda安装完成后,每次打开终端都会激活其默认的base环境,我们可通过以下命令,禁止激活默认base环境。加载配置文件,使之生效。

2022-09-30 22:49:44 702

原创 全流程调度

安装azkaban并改名。

2022-09-26 21:47:12 769

原创 数仓搭建-ADS层

建表语句数据装载。

2022-09-20 22:12:41 203

原创 数仓搭建-DWT层

一、建表语句二、数据装载。

2022-09-18 22:34:33 155

原创 数仓搭建-DWS层

一、建表语句二、装载。

2022-09-18 12:54:59 257

原创 数仓搭建-DWD层

一、建表语句二、首日装载三、每日装载。

2022-09-14 22:27:27 326

原创 数仓搭建-DWD层

取出第一个json对象取出第一个json的age字段的值。

2022-09-10 23:00:49 146

原创 数仓搭建-DIM层

执行以下语句将其导入时间维度表。创建真正的时间维度表。

2022-09-09 18:14:59 125

原创 数仓搭建-ODS层

(1)在hadoop102的/opt/module/hadoop-3.1.3/etc/hadoop/capacity-scheduler.xml文件中修改如下参数值已成功。

2022-09-05 12:24:52 324

原创 数仓环境搭建Hive

例如,数据仓库中可能需要累积或者存储订单从下订单开始,到订单商品被打包、运输、和签收的各个业务阶段的时间点数据来跟踪订单声明周期的进展情况。当这个业务过程进行时,事实表的记录也要不断更新。每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。例如每天或者每月的销售额,或每月的账户余额等。累计快照事实表用于跟踪业务事实的变化。“事实”这个术语表示的是业务事件的。通过insert测试效果。

2022-09-01 23:01:08 185

原创 部署Hive

新建hive-site.xml文件。初始化Hive元数据库。新建Hive元数据库。

2022-08-29 23:02:17 126

原创 业务数据采集Sqoop

安装解压。

2022-08-28 22:31:23 178

原创 业务数据之Mysql

启动Mysql查看root身份的初始密码用root身份登录到mysql中。

2022-08-22 22:27:49 448

原创 Flume(二)

MemoryChannel传输数据速度更快,但因为数据保存在JVM的堆内存中,Agent进程挂掉会导致数据丢失,适用于对数据质量要求不高的需求。在hadoop104的/opt/module/flume/conf目录下创建kafka-flume-hdfs.conf文件。FileChannel传输速度相对于Memory慢,但数据安全保障高,Agent进程挂掉也可以从失败中恢复数据。传输的是普通日志信息(京东内部一天丢100万-200万条,这是非常正常的),通常选择MemoryChannel。

2022-08-22 17:43:53 705

原创 采集日志Flume

在/opt/module/flume/conf目录下创建file-flume-kafka.conf文件。需要先将打好的包放入到hadoop102的/opt/module/flume/lib文件夹下面。将 lib 文件夹下的guava-11.0.2.jar 删除以兼容 Hadoop 3.1.3。创建Maven工程flume-interceptor。在pom.xml文件中添加如下配置。创建ETCInterceptor类。JSONUtils类。

2022-08-22 00:25:30 317

原创 Hadoop(六)

分别在hadoop103,hadoop104上修改broker.id为1,2.虚拟机-->右击-->设置-->网络适配器-->高级。myid里面的虚拟机id号应不同。

2022-08-17 19:26:38 251

原创 hadoop(五)

如果是第一次启动,则需要格式化。hadoop102中。

2022-08-13 19:34:48 127

原创 Hadoop(四)

配置mapred-site.xml。一、配置yarn-site.xml。配置hdfs-site.xml。配置yarn-site.xml。

2022-08-12 12:05:41 894

原创 Hadoop(三)

把对应的安装包拖到里面。

2022-08-07 22:30:43 424

原创 Hadoop(二)

2.把准备好的JDK拖到xshell里安装新的JDK。1.来到目录下把准备好的日志拖到进入的文件夹中。进入log,查看对应日志。3.配置环境变量并分发。1.卸载原有的JDK。

2022-08-07 21:22:49 406

原创 Hadoop(一)

1.关闭防火墙,关闭防火墙开机自启小贴士:在xshell中怎样添加复制粘贴功能1.点击工具,选择里面的按键对应2.点击新建,输入组合键,类型选择菜单,菜单选择复制或粘贴2.创建一个用户,并修改用户密码3.配置用户具有root权限,方便后期加sudo执行root命令4.在/opt目录下创建文件夹,并修改所属组和用户组5.卸载虚拟机自带的JDK6.重启虚拟机。...

2022-08-02 18:26:30 1598

原创 哈希表 二叉树

代码】哈希表二叉树。

2022-07-31 22:57:31 234

原创 查找 算法

代码】查找算法。

2022-07-31 22:54:12 94

原创 hadoop

2022-07-31 22:47:39 109

原创 数据结构与算法(排序)

高级排序

2022-07-17 22:45:04 135

原创 linux

2022-07-17 22:25:03 76

原创 linux(进程管理类)

2022-07-17 22:21:19 62

原创 linux(搜索查找,磁盘查看)

2022-07-10 20:16:53 152

原创 Linux(文件权限)

linux

2022-07-10 20:12:44 101

原创 数据结构与算法

数据结构与算法

2022-07-10 20:05:53 134

原创 linux

2022-07-05 20:00:44 77

原创 linux(常见基本命令)

2022-07-05 19:56:04 172

原创 Linux

目录网页连接模式桥接模式NAT模式仅主机模式配置主机名进程和服务systemctl系统运行级别关机重启命令虚拟机直接连接外部物理网络的模式,主机起到了网桥的作用。这种模式下,虚拟机可以直接访问外部网络,并且对外部网络是可见的。虚拟机和主机构建一个专用网络,并通过虚拟网络地址转换(NAT)设备对IP进行转换。虚拟机通过共享主机IP可以访问外部网络,但外部网络无法访问虚拟机。虚拟机仅与主机共享一个专用网络,与外部网络无法通信。基本语法:hostname(查看当前服务器的主机名称)vi/etc/hostname(

2022-07-04 16:36:57 57

原创 Linux(目录 编译器)

目录目录结构VI/VIM编译器模式间的转换常用语法(一般模式)编辑模式常用语法常用模式基本语法vi/vim键盘图Linux系统中一切皆文件。目录结构/bin:存放二进制可执行文件(ls,cat,mkdir),常用命令一般都在这里。/etc:存放系统管理和配置文件。/home:存放所有用户文件的根目录,是用户主目录的基点。/usr:用于存放系统应用程序,比较重要的目录/usr/local本地系统管理员软件安装目录(安装系统级的应用)。/usr/.

2022-05-30 11:22:47 557

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除