大数据组件
文章平均质量分 86
记录一些大数据组件的学习笔记
coder_szc
倚天照海花无数,流水高山心自知。
展开
-
ClickHouse学习笔记之备份和恢复
ClickHouse允许使用查询已创建表分区的本地副本,这是利用硬链接到目录中实现的,所以它通常不会因为旧数据而占用额外的磁盘空间。创建的文件副本不由ClickHouse服务器处理,所以不需要任何的外部系统就可以有一个简单的备份。为了防止硬件问题,最好将这些备份复制到另一台主机上,再删除本地副本。原创 2022-11-19 10:45:34 · 2691 阅读 · 0 评论 -
ClickHouse学习笔记之MaterializeMySQL引擎
MySQL用户群体很大,为了增强数据的实时性,很多解决方案会利用binlog将数据写入到ClickHouse。为了能够监听binlog事件,我们需要利用类似canal这样的中间件,但这样会增加系统的复杂度。ClickHouse20.8.2.3版本新增了MaterializeMySQL这一数据库引擎,该引擎能够把ClickHouse中某个数据库映射到MySQL中的某个数据库,并自动在ClickHouse中创建对应的`ReplacingMergeTree`。ClickHouse以此作为MySQL的副本,读取B原创 2022-11-05 17:36:24 · 656 阅读 · 0 评论 -
ClickHouse学习笔记之数据一致性
ClickHouse中,即使是对数据一致性支持最好的合并树引擎,也只能保证最终一致性。例如,对数据的去重只会在数据合并期间进行,合并会在后台一个不确定的时间进行,因此我们不能与先做出计划,从而有一些数据在被读取时可能仍未被处理。尽管我们可以通过optimize语句发起计划外的合并,但那会引发大量的数据IO,因此不要依靠该语句。所以,适用于后台清除重复数据以节省空间,但不能保证没有重复的数据出现。我们在使用、这类表引擎时,会出现短暂的数据不一致的情况。原创 2022-10-22 11:39:36 · 1142 阅读 · 0 评论 -
ClickHouse学习笔记之副本
如果需要保障数据的高可用性,那么需要为数据表创建副本,并通过ZooKeeper进行副本管理、同步和协调。原创 2022-09-17 11:25:09 · 848 阅读 · 0 评论 -
ClickHouse学习笔记之SQL语句
ClickHouse支持传统的MySQL中的结构化查询语言SQL,因此此处不会从头学SQL,而是记录ClickHouse中对SQL扩展的新特性。原创 2022-09-10 17:48:58 · 2253 阅读 · 0 评论 -
ClickHouse学习笔记之表引擎
表引擎是ClickHouse一大特色,决定了表数据的存储方式。表引擎使用时必须显式在创建表时定义该表使用的引擎,以及引擎参数,注意引擎名大小写敏感原创 2022-09-03 12:18:23 · 838 阅读 · 0 评论 -
ClickHouse学习笔记之数据类型
本文记录了ClickHouse中几种常见的数据类型的表示范围、用法和注意事项。原创 2022-08-27 09:52:58 · 1867 阅读 · 0 评论 -
ClickHouse学习笔记之安装配置
ClickHouse是俄罗斯公司Yandex推出的列式存储数据库,不依赖于Hadoop生态,用于在线分析处理查询,通过SQL查询实时生成分析数据报告。本笔记记载CentOS7下ClickHouse21.11的学习过程。原创 2022-08-20 12:42:29 · 795 阅读 · 0 评论 -
Doris学习笔记之备份与恢复
本文介绍了Doris备份快照与恢复快照的方法,并辅以了实际案例进行说明原创 2022-08-13 10:26:25 · 1883 阅读 · 0 评论 -
Doris学习笔记之优化
本文记录了Doris优化的一些方法或原则,比如查看QueryProfile、Join优化原则等,并介绍了Bitmap索引和布隆索引,以及优化的原理等原创 2022-08-06 10:30:39 · 3708 阅读 · 0 评论 -
Doris学习笔记之监控
Doris可以使用Prometheus和Grafana进行监控和采集,官网下载最新版即可。Doris的监控数据通过FE和BE的http接口向外暴露。监控数据以key-value的文本形式对外展现。每个key还可能有不同的Label加以区分。原创 2022-07-30 10:47:36 · 1541 阅读 · 1 评论 -
Doris学习笔记之与其他系统集成
本文记录了Doris和其他系统进行交互的方法,包括Spark、ODBC、DataX、ES,配合了demo案例,并对相关字段进行了讲解。原创 2022-07-23 13:18:48 · 1194 阅读 · 0 评论 -
Doris学习笔记之查询
一个查询任务在单个BE结点上使用的内存默认不超过2GB,如果超过,可能会出现Memory limit exceeded。查看内存限制:的单位是byte,可通过改变t的值:该命令只针对当前会话,如需永久有效,则要添加global参数:修改超时时间默认最长查询时间为300s,如果超时未完成,则会被取消掉,查看配置:设置方法同exec_mem_limit。当部署多个FE结点时,用户可以在多个FE之上部署负载均衡层来实现Doris的高可用。自己在应用层代码进行重试和负载均衡。比如发现一个连接挂掉,就自动在原创 2022-07-16 09:11:56 · 5485 阅读 · 0 评论 -
Doris学习笔记之数据的导入导出
本文介绍了Doris的数据导入和导出功能,对其中字段、参数进行了详细说明,并配合了大量案例原创 2022-07-09 11:42:01 · 2696 阅读 · 0 评论 -
Doris学习笔记之数据表的创建
本文介绍Doris中数据表的创建,包括用户和数据库的创建、Doris表的基本概念、数据划分、Rollup上卷、物化视图、数据表的修改和删除,并辅以多个案例进行演示原创 2022-07-02 12:54:43 · 6225 阅读 · 1 评论 -
数据集成框架SeaTunnel学习笔记
SeaTunnel 是一个简单易用的数据集成框架,在企业中,由于开发时间或开发部门不通用,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。SeaTunnel 支持海量数据的实时同步。它每天可以稳定高效地同步数百亿数据,并已用于近 100 家公司的生产。SeaTunnel的前身是 Waterdrop(中文名:水滴)自2021年 10月 12日更名为 SeaTunnel。...原创 2022-06-10 10:31:40 · 8920 阅读 · 5 评论 -
性能监控工具Zabbix学习笔记
本文记录了Zabbix的安装、使用和与Grafana集成的过程。原创 2022-06-04 11:48:45 · 1294 阅读 · 0 评论 -
StreamX学习笔记之StreamAPI开发应用
文章目录项目配置项目结构assembly\bin目录setclasspath.shshutdown.shstartup.shstreamx.shlogback.xmlapplication.ymlassembly.xml流式应用开发pom.xml文件Kafka-connector的使用基本数据消费多主题消费多kafka集群消费JDBC的使用提交streamX平台执行Flink SQL应用开发pom依赖application.ymlsql.ymljava代码测试结果项目配置配置在 StreamX 中是非常原创 2022-05-28 10:11:46 · 1246 阅读 · 0 评论 -
StreamX学习笔记之介绍与安装部署
介绍StreamX 项目的初衷是——让 Flink 开发更简单, 使用 StreamX 开发,可以极大降低学习成本和开发门槛,让开发者只用关心最核心的业务,StreamX 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程,提供 scala 和 java 两套 api,其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案。StreamX的特色有:开发脚手架;多版本 Flink 支持(原创 2022-05-21 11:11:59 · 1672 阅读 · 3 评论 -
数据分析引擎之Kylin学习笔记
文章目录理论知识介绍架构REST Server查询引擎(Query Engine)路由器(Routing)元数据管理工具(Metadata)任务引擎(Cube Build Engine)特点安装配置和启动bin/find-spark-dependency.shtomcat/conf/server.xml启动与关闭web界面使用数据准备创建Kylin项目创建Model创建Cube查询编写Kylin SQL时的注意事项每日自动构建Cube脚本Cube构建原理维度和度量Cube和CuboidCube存储原理Cub原创 2022-05-15 10:56:35 · 964 阅读 · 0 评论 -
数据库CDC中间件学习之Canal
文章目录介绍准备工作打开MySQL的Binlog创建测试数据库及表Canal安装配置下载jar包配置canal/conf/canal.properties:conf/example/instance.properties启动使用Kafka实时消费TCP实时消费介绍类似于Maxwell,canal也是一个实时数据库变更订阅中间件,它是阿里用java开发的基于数据库增量日志解析、提供增量数据订阅消费的中间件。目前,Canal主要支持了MySQL的binlog解析,并利用CanalClient进行处理以获得相原创 2022-04-09 12:15:23 · 2751 阅读 · 0 评论 -
数据库CDC中间件学习之Maxwell
文章目录介绍工作原理Maxwell与Canal的对比安装及配置前提条件在MySQL中打开binlog创建maxwell数据库操作Maxwell命令行测试插入数据更新数据删除数据Maxwell连接Kafka普通测试topic分区数据过滤数据表的全量输出介绍Maxwell是Zendesk开源的用java编写的MySQL实时抓取(CDC,Change Data Capture,变更数据读取)软件,通过实时读取MySQL的二进制日志Binlog生成json信息,再作为生产者将信息发给Kafka、控制台、redi原创 2022-03-26 20:50:55 · 4011 阅读 · 0 评论 -
元数据管理工具Atlas学习笔记之使用
文章目录背景导入元数据查看元数据按类型搜索Hive元数据增量同步遇到的问题及解决方法结语背景Atlas主要负责同步各服务(主要是Hive)的元数据,并构建元数据实体之间的关联关系,并对所存储的元数据建立索引,为用户提供数据血缘关系查看及元数据检索等功能。Atlas在安装之初,需要手动执行一次元数据的全量导入,后续Atlas便会通过HiveHook增量同步Hive元数据,关于CentOS7下Hive的安装及使用,请参见CentOS7下Hive的安装使用导入元数据进入Atlas编译结果根目录,进入ap原创 2022-03-19 10:36:22 · 2772 阅读 · 0 评论 -
元数据管理工具Atlas学习笔记之集成
文章目录背景环境Atlas安装solrAtlasAtlas启动启动Hadoop、ZooKeeper、HBase、Kafka、Hive和MySQLHadoop启动ZooKeeper启动HBase启动Kafka启动MySQL启动Hive启动solr配置atlas集成HBase集成Solr集成KafkaServer配置集成Hive启动atlas结语背景在文章元数据管理工具Atlas学习笔记之介绍中,我介绍了Atlas这一元数据管理工具,现在,就要将它进行编译,并且和一些常见的大数据组件进行集成。环境操作系原创 2022-03-12 18:30:49 · 3021 阅读 · 1 评论 -
元数据管理工具Atlas学习笔记之介绍
简介Atlas可为组织提供开放式元数据管理和治理功能,用以构建数据目录,对数据进行分类和管理,形成数据字典架构元数据源:HBase、Hive、Sqoop、Kafka;Admin UI:基于Web的应用程序,允许我们发现和注释元数据,拥有搜索界面和类似SQL的查询语言,可用于查询Atlas管理的元数据类型和对象;Ranger Tag Based Policies:权限管理模块;Business Taxonomy:业务分类;Messaging:我们可以选择使用基于Kafka的消息传递接口与Atl原创 2022-03-05 10:46:12 · 464 阅读 · 0 评论 -
spark-streaming连接hive+HBase
背景记录一下前一阵spark连接hive和HBase的过程,主要得保证主机和虚拟机的主机名映射是一致的步骤1、首先保证windows的hosts文件、CentOS的hosts文件、CentOS的hostname文件中的待连接ip对应的主机名是一致的比如我要连接的ip是192.168.57.141,那我的windows下的C:\Windows\System32\drivers\etc\hosts文件中相应内容为192.168.57.141 scentos虚拟机中/etc/hosts中原创 2020-08-09 16:28:26 · 703 阅读 · 0 评论 -
记SparkStreaming连接kafka
背景项目需要用SparkStreaming连接kafka,本以为很简单,没想到遇到不少麻烦版本scala版本2.10,kafka版本2.11.0-0.11.0.0,jdk1.8pom依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http:/原创 2020-08-03 09:51:56 · 635 阅读 · 0 评论 -
Sqoop在CentOS7下的安装使用
背景sqoop可以用在mysql、hdfs、hive、hbase等大数据组件之间迁移数据安装1、把sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tars上传到CentOS72、解压,改名字[root@localhost szc]# tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz[root@localhost szc]# mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha s原创 2020-07-12 22:08:52 · 719 阅读 · 0 评论 -
CentOS7下Hive的安装使用
目录背景安装配置运行命令插入数据表分桶正则serde存储格式排序和聚集子查询视图自定义函数写UDF写UDAF聚集函数表生成函数UDTF通用版表分区删除列动态分区导出表到文件系统查询复合结构中的元素内置函数case...when...then.else语句嵌套select语句浮点数比较like和rlikegroup by分组优化选项本地模式并行执行严格模式压缩解压缩分区宏命令RCFi原创 2020-07-12 21:56:28 · 1653 阅读 · 0 评论 -
CentOS7下安装使用HBase
目录背景数据结构安装启动hadoop、kafka、ZooKeeper解压hbase压缩包配置HBase启动hbase关闭hbase进入hbase命令行命令创建表,指定列族插入数据,指定行键、列族限定符和值扫描表获取单行数据删除数据(单元格)禁用并删除表让表支持多版本数据与hive集成与pig集成行键设计原则长度原则唯一原则散列原则协处理器的使用结语背景记录下HBase在CentOS7下的安装过程,请事原创 2020-07-12 20:27:12 · 1417 阅读 · 0 评论 -
Hadoop2.5.0在CentOS7下的安装部署
背景记录下Hadoop2.5.0在CentOS7下安装部署的过程步骤1、新建cdh文件夹,把hadoop的压缩包解压到cdh文件夹里面#mkdir cdh#tar -zxvfhadoop-2.5.0-cdh5.3.6.tar.gz -C cdh2、切换到hadoop解压目录下的etc/hadoop目录,修改hadoop-env.sh、mapred-env.sh、mapred-site.xml.template、hdfs-site.xml、yarn-site.xml、core-sit.原创 2020-07-12 19:55:39 · 423 阅读 · 0 评论 -
CentOS7安装zookeeper
背景ZooKeeper是很多大数据组件(特别是kafka)都要用到的框架,在此记录下它在CentOS7下安装的过程步骤1、下载压缩包# wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.9/zookeeper-3.4.9.tar.gz2、新建zookeeper目录,把压缩包解压其中# mkdir zookeeper# tar -zxvf zookeeper-3.4.9.tar.gz-C zookeepe..原创 2020-07-12 19:45:23 · 451 阅读 · 0 评论 -
CentOS7下安装使用kafka及其监控组件
背景分享一下这半年学习kafka的笔记简介kafka是分布订阅式生产者消费者模型架构:角色解释:1、broker:一台kafka服务器就是一个broker,里面有多个topic2、producer:向broker发送消息的结点,生产者3、consumer:从broker读取消息的结点,消费者4、consumerGroup:消费者组,里面的消费者负责不同分区的数据。同一个消费者组只能读取一个分区的作用5、topic:消息话题,用于消息分类6、partiti.原创 2020-07-12 19:40:28 · 1872 阅读 · 0 评论 -
Azkaban在CentOS7下安装和使用
背景这两天实在无聊...只能靠读论文、做笔记、学框架、打游戏消磨时间,想找个人说话都费劲,没想到在家比在学校还憋闷..闲言少叙书归正传,整理一下前几天学习Azkaban的笔记,操作环境依旧是CentOS7,前提环境是装了jdk8,如果配了Hadoop、hive、HBase更好。Azkaban和oozie一样都是任务调度工具,但它的webui界面比oozie可好多了,操作基本都在界面上完成安装、配置与启动安装需要三个文件,自行下载把其中的executor和web-serv.原创 2020-05-09 16:10:26 · 914 阅读 · 3 评论 -
CentOS7下oozie调度任务案例
背景以官方例子为例,记录下如何使用oozie调度任务,首先进入oozie的解压根目录调度普通任务1、解压oozie根目录里的oozie-examples.tar.gz# tar -zxvf oozie-examples.tar.gz2、在oozie根目录新建目录,将解压得到的examples里的app/shell目录复制其中# mkdir oozie-apps# cp...原创 2020-05-07 09:21:15 · 706 阅读 · 0 评论 -
CentOS7下oozie的部署与运行
背景整理下上个月学习CentOS7下部署运行oozie的笔记,里面用到的oozie和hadoop都是cdh版的安装部署Hadoop1、新建cdh文件夹,把hadoop和oozie的压缩包解压到cdh文件夹里面mkdir cdhtar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C cdhtar -zxvf oozie-4.0.0-cdh5.3.6....原创 2020-05-06 12:19:53 · 580 阅读 · 0 评论 -
解决运行MapReduce作业时报错类找不到
背景今天在学习HBase和MapReduce的结合时,作业打包运行会报错第三方类找不到,而我作业jar包里却有这个类解决方法需要修改hadoop-env.cmd文件,把所需第三方类的jar放到HADOOP_CLASSPATH环境变量里。比如要添加hbase相关的jar包,可以使用一个for循环如下for %%i in (%HBASE_HOME%\lib\hbase-*.jar...原创 2020-02-03 18:52:50 · 1204 阅读 · 0 评论 -
启动HBase报错Could not start ZK at requested port of 2181. ZK was started at port: 2182.
背景使用start-hbase.cmd启动hbase的master时,报错Could not start ZK at requested port of 2181. ZK was started at port: 2182.解决方法由于HBaseHome\config\hbase-env.cmd中没有对HBASE_MANAGES_ZK进行设置,所以启动HBase的master时,会启动...原创 2020-01-29 19:00:55 · 2996 阅读 · 0 评论 -
Hive归档分区表
背景Hive可以把分区表的分区归档成HAR文件,也可以把归档完的分区进行解压。以下步骤基于Hadoop2.8.5和Hive2.3.5步骤1、把hadoopHome/share/hadoop/tools/lib/hadoop-archives-2.8.5.jar放到hiveHome/lib目录下2、在hiveHome/conf/hive-site.xml中使能分区归档 &...原创 2020-01-21 16:46:59 · 956 阅读 · 0 评论 -
解决给Flink添加jdbc输出时的报错java.lang.VerifyError: Illegal type at constant pool entry
背景今天在学习Flink的JDBC输出时,报了以下错误java.lang.VerifyError: Illegal type at constant pool entry解决方法在富函数子类的invoke()和close()函数里,不要调用父类的空方法,也就是去掉super.invoke(value)和super.close()即可。结语其实父类的open()函数也是空的...原创 2019-12-18 19:46:49 · 1355 阅读 · 0 评论
分享