- 博客(63)
- 收藏
- 关注
原创 PostgreSQL数据库安装部署
1.postgresql.conf 配置PostgreSQL数据库服务器的相应的参数。可以看到 /pgsql/postgresql/data已经有文件了。找到最下面这一行 ,添加上配置,这样局域网的人才能访问。2.pg_hba.conf 配置对数据库的访问权限。2.拷贝linux文件到init.d目录下。如果报错进不去,指定ip,用户,端口号。1.在解压安装目录下找到启动脚本。7.启动postgresql。进入postgresql。添加以下内容到文件末尾。4.修改文件的可执行权。
2024-01-20 18:43:32 630
原创 Docker 学习笔记
第1章 docker简介1.1 什么是docker1.Docker 最初是 dotCloud 公司创始人 Solomon Hykes 在法国期间发起的一个公司内部项目,它是基于 dotCloud 公司多年云服务技术的一次革新,并于 2013 年 3 月以 Apache 2.0 授权协议开源,主要项目代码在 GitHub 上进行维护。Docker 项目后来还加入了 Linux 基金会,并成立推动开放容器联盟(OCI)。2.Docker 使用 Google 公司推出的 Go 语言进行开发实现,基于 Lin
2022-03-31 16:32:16 2278
原创 linux查看整个机器内存使用情况
命令参数介绍total: 内存总数used: 已经使用内存数free: 完全空闲内存shared: 多个进程共享的内存buffers: 用于块设备数据缓冲,记录文件系统metadata(目录,权限,属性等)cached: 用于文件内容的缓冲available:真正剩余的可被程序应用的内存数...
2021-12-17 17:06:01 794
原创 Dolphinscheduler 学习笔记
Dolphinscheduler官网https://dolphinscheduler.apache.org/Dolphinscheduler下载地址https://www.apache.org/dyn/closer.lua/dolphinscheduler/1.3.9/apache-dolphinscheduler-1.3.9-bin.tar.gz一. DolphinScheduler简介1.1 DolphinScheduler概述Apache DolphinScheduler是一个分布式、
2021-12-13 21:51:39 7170
原创 Dolphinscheduler 安装笔记
一. DolphinScheduler部署说明1.1 软硬件环境要求1.1.1 操作系统版本要求操作系统版本Red Hat Enterprise Linux7.0 及以上CentOS7.0 及以上Oracle Enterprise Linux7.0 及以上Ubuntu LTS16.04 及以上1.1.2 服务器硬件要求CPU内存网络4核+8 GB+千兆网卡1.2 部署模式DolphinScheduler支持多种部署
2021-12-13 17:33:58 1617
原创 DataX 学习笔记
一. DataX简介1.1 DataX概述DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。官网地址:https://github.com/alibaba/DataX1.2 DataX支持的数据源DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图。类型数据源R
2021-12-13 12:01:46 3556
原创 Flume 安装笔记
Flume官网地址http://flume.apache.org/文档查看地址http://flume.apache.org/FlumeUserGuide.html下载地址http://archive.apache.org/dist/flume/安装部署1.将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下apache-flume-1.9.0-bin.tar.gz2.解压apache-flume-1.9.0-bin.tar.gz
2021-11-30 19:38:42 127
原创 Hadoop的部署和配置
Hadoop下载地址https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/一.Hadoop的安装1.把hadoop-3.1.3.tar.gz上传到linux的/opt/software目录下hadoop-3.1.3.tar.gz2.解压hadoop-3.1.3.tar.gz到/opt/server/目录下面[linux@node1 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt
2021-11-26 09:45:42 1207
原创 Linux 安装Maven
一.maven下载https://maven.apache.org/download.cgibin.tar.gz是适用于linux、MacOsX系统的二进制文件bin.zip是适用于windows的二进制文件src.tar.gz是linux下的源码src.zip是windows的源码二.maven仓库https://mvnrepository.com/三.linux中安装maven1.把apache-maven-3.8.3-bin.tar.gz上传到linux的/opt/software
2021-11-18 15:49:59 127
转载 Kafka 学习笔记
文章预览:一.Kafka概述二.kafka基础架构三.Kafka工作流程及文件存储机制四.Kafka生产者4.1 分区策略4.2 数据可靠性保证4.3 Exactly Once语义五.Kafka消费者5.1 消费方式5.2 分区分配策略5.3 offset的维护六.Kafka高效读写数据七.Zookeeper在Kafka中的作用八.Kafka事务8.1 Producer事务8.2 Consumer事务(精准一次性消费)九.消息发送流程一.Kafka概述Kafka是一个分布式的基于发布/订阅模式的消息队列
2021-08-04 17:25:45 132
转载 Flink 状态编程
文章预览:一.什么是状态二.为什么需要管理状态三.Flink中的状态分类四.Managed State的分类五.算子状态的使用六.键控状态的使用七.状态后端有状态的计算是流处理框架要实现的重要功能,因为稍复杂的流处理场景都需要记录状态,然后在新流入数据的基础上不断更新状态。SparkStreaming在状态管理这块做的不好, 很多时候需要借助于外部存储(例如Redis)来手动管理状态, 增加了编程的难度.Flink的状态管理是它的优势之一.一.什么是状态在流式计算中有些操作一次处理一个独立的事件(
2021-08-03 14:06:25 501
转载 Flink 部署模式
一.开发模式咱们前面在idea中运行Flink程序的方式就是开发模式.二.local-cluster模式Flink中的Local-cluster(本地集群)模式,主要用于测试, 学习.2.1 local-cluster模式配置local-cluster模式基本属于零配置.1.传Flink的安装包flink-1.12.0-bin-scala_2.11.tgz到hadoop1622.解压tar -zxvf flink-1.12.0-bin-scala_2.11.tgz -C /opt/modul
2021-08-02 21:44:46 583
原创 Flink SQL学习笔记
文章预览:一.核心概念1.1动态表和连续查询1.2在流上定义表(动态表)二.Flink Table API2.1导入需要的依赖2.2基本使用:表与DataStream的混合使用2.3基本使用:聚合操作2.4表到流的转换2.5通过Connector声明读入数据2.6通过Connector声明写出数据2.7其他Connector用法三.Flink SQL3.1基本使用3.2Kafka到Kafka四.时间属性4.1处理时间4.2事件时间使用UNBOUNDED_RANGEFlink 社区很早就设想过将批数据看作一
2021-08-02 21:09:34 449
原创 SparkCore 学习笔记
RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD特点(1)弹性存储的弹性:内存于磁盘的自动切换容错的弹性:数据丢失可以自动恢复计算的弹性:计算出错重试机制分片的弹性:可根据需要重新分片(2)分布式数据存储在大数据集群不同节点(3)数据集,不存储数据RDD封装了计算逻辑,并不保存数据(
2021-08-02 17:02:32 667
原创 Hive 调优
文章预览:一.Fetch抓取二.本地模式三.表的优化3.1 小表、大表Join3.2 大表Join大表3.3 MapJoin3.4 Group By3.5 Count(Distinct) 去重统计3.6 笛卡尔积3.7 行列过滤3.8 分区3.8.1 分区表基本操作3.8.2 分区表二级分区3.8.3 动态分区调整3.9 分桶四.合理设置Map及Reduce数4.1 复杂文件增加Map数4.2 小文件进行合并4.3 合理设置Reduce数五.并行执行六.严格模式七.JVM重用八.压缩九.执行计划(Expla
2021-07-29 15:28:55 440
原创 SparkStreaming 学习笔记
SparkStreaming概述1.1 Spark Streaming是什么Spark Streaming用于流式数据的处理1.Spark Streaming支持的数据输入源头很多,例如:Kafka,Flume,HDFS等2.数据输入后可以用Spark的高度抽象原语如:map,reduce,join,window等3.而结果也能保存在很多地方,如HDFS,数据库等1.2 Spark Streaming架构原理1.2.1 什么是DStream1.2.2 架构图整体架构图SparkStr
2021-07-28 20:59:51 462
原创 SparkSQL 学习笔记
Spark SQL概述1.1 什么是Spark SQLSpark SQL是spark用于结构化数据处理的Spark模块1.2 为什么要有Spark SQL1.3 Spark SQL原理1.3.1 什么是DataFrame1)DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。2)DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。左侧的RDD[Person]虽然以Person为
2021-07-28 10:38:00 675
原创 Hive 安装笔记
Hive安装地址1)Hive官网地址http://hive.apache.org/2)文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3)下载地址http://archive.apache.org/dist/hive/4)github地址https://github.com/apache/hiveHive安装部署前提将Mysql安装完成,把hive元数据放到Mysql中1)把apache-hive
2021-07-27 16:44:02 387
原创 Spark 运行模式
部署Spark集群大体上分为两种模式:单机模式与集群模式大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境。但是在生产环境中,并不会使用单机模式。因此,后续直接按照集群模式部署Spark集群。下面详细列举了Spark目前支持的部署模式。(1)Local模式:在本地部署单个Spark服务(2)Standalone模式:Spark自带的任务调度模式。(国内常用)(3)YARN模式:Spark使用Hadoop的YARN组件进行资源与任务调度。(国内常用)(4)Mesos模式:Spark使用M
2021-07-23 16:12:40 1262
原创 Canal 学习笔记
canal 介绍阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了同步杭州和美国异地机房的需求,从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。canal是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,canal主要支持了MySQL的binlog解析,解析完成后才利用canal client来处理获得的相关数据。(数据库同步需要阿里的otter中间
2021-07-23 15:48:30 904
原创 Maxwell 学习笔记
Maxwell 介绍Maxwell 是由美国Zendesk开源,用Java编写的MySQL实时抓取软件。 实时读取MySQL二进制日志Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。官网地址:http://maxwells-daemon.io/https://github.com/zendesk/maxwellMaxwell工作原理2.1MySQL主从复制过程
2021-07-13 16:41:43 637
原创 kafka 安装部署
1.集群规划node1node2node3zookeeperzookeeperzookeeperkafkakafkakafka2.jar包下载http://kafka.apache.org/downloadskafka_2.11-2.4.1.tgz3.集群部署1)解压安装包[linux@node1 software]$ tar -zxvf kafka_2.11-2.4.1.tgz -C /opt/module/2)修改解压后的文件名称[linux@
2021-07-13 16:16:14 156
原创 Linux安装 Mysql
mysql下载地址 https://dev.mysql.com/downloads/mysql/5.7.html#downloads1.检查当前系统是否安装过Mysql[linux@node1 ~]$ rpm -qa|grep mariadbmariadb-libs-5.5.64-1.el7.x86_64 //如果存在通过如下命令卸载[linux@node1 ~]$ sudo rpm -e --nodeps mariadb-libs //用此命令卸载mariad
2021-07-13 14:25:26 118
原创 Hbase学习笔记
HBase简介HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库,利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 Hbase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存NoSQL数据库)hbase优势全 Hadoop 集成:完全支持 HDFS 和 MapReduceHighly fault tolerance 高容错!Built-in scalability 内置扩展 !Buil
2021-07-12 11:49:57 117
原创 HBase Shell操作
1)进入HBase客户端命令行[atguigu@hadoop102 hbase]$ bin/hbase shell2)查看帮助命令hbase(main):001:0> help2.2.2 DDLGroup name: namespaceCommands: alter_namespace, create_namespace, describe_namespace, drop_namespace, list_namespace, list_namespace_tablesGroup name
2021-07-12 09:09:54 128
原创 HBase 优化
预分区每一个region维护着StartRow与EndRow,如果加入的数据符合某个Region维护的RowKey范围,则该数据交给这个Region维护。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高HBase性能。1)手动设定预分区hbase> create ‘staff1’,‘info’,SPLITS => [‘1000’,‘2000’,‘3000’,‘4000’]2)生成16进制序列预分区create ‘staff2’,‘info’,{NUMREGIONS
2021-07-11 21:26:40 782
原创 HBase协处理器
案例需求编写协处理器,实现在往A表插入数据的同时让HBase自身(协处理器)向B表中插入一条数据。实现步骤1)创建一个maven项目,并引入以下依赖。<dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version
2021-07-11 15:16:43 265
原创 HBase 整合Phoenix
6.1 Phoenix简介6.1.1 Phoenix定义Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。6.1.2 Phoenix特点1)容易集成:如Spark,Hive,Pig,Flume和Map Reduce;2)操作简单:DML命令以及通过DDL命令创建和操作表和版本化增量更改;3)支持HBase二级索引创建。6.1.3 Phoenix架构6.2 Phoenix快速入门6.2.1 安装1)官网
2021-07-11 14:58:02 440
原创 HBase 与Hive的集成
7.1 HBase与Hive的对比1.Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。2.HBase(1) 数据库是一种面向列族存储的非关系型数据库。(2) 用于存储结构化和非结构化的数据
2021-07-10 15:44:32 142
原创 HBase 安装部署
2.1 HBase安装部署2.1.1 Zookeeper正常部署首先保证Zookeeper集群的正常部署并启动[atguigu@hadoop102 zookeeper-3.5.7]$ bin/zkServer.sh start[atguigu@hadoop103 zookeeper-3.5.7]$ bin/zkServer.sh start[atguigu@hadoop104 zookeeper-3.5.7]$ bin/zkServer.sh start2.1.2 Hadoop正常部署Hado
2021-07-09 17:21:49 129
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人