![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据组件
文章平均质量分 89
不以物喜2020
大数据开发工程师一枚
展开
-
大数据数据湖技术Hudi0.12.0版本源码编译
Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载,而且还允许创建高效的增量批处理管道。Apache Hudi可以轻松地在任何云存储平台上使用。原创 2023-05-24 09:37:38 · 1145 阅读 · 0 评论 -
Spark-core项目实战——电商用户行为数据分析
0 数据准备本实战项目的数据是采集自电商的用户行为数据.主要包含用户的 4 种行为: 搜索, 点击, 下单和支付.数据格式如下, 不同的字段使用下划线分割开_:数据说明:数据采用_分割字段每一行表示用户的一个行为, 所以每一行只能是四种行为中的一种.如果搜索关键字是 null, 表示这次不是搜索如果点击的品类 id 和产品 id 是 -1 表示这次不是点击下单行为来说一次可以下单多个产品, 所以品类 id 和产品 id 都是多个, id 之间使用逗号,分割. 如果本次不是下单行为, 则原创 2021-05-27 11:12:39 · 3268 阅读 · 8 评论 -
HDFS核心工作原理
HDFS核心工作原理1 Namenode元数据管理要点1)什么是元数据?hdfs的目录结构及每一个文件的块信息(块的id,块的副本数量,块的存放位置)2)元数据由谁负责管理?Namenode3)namenode把元数据记录在哪里?Namenode的实时的完整的元数据存储在内存中;Namenode还会在磁盘中(dfs.namenode.name.dir)存储内存元数据在某个时间点上的镜像文件;Namenode会把引起元数据变化的客户端操作记录在edits日志文件中;Secondarynam原创 2020-09-02 22:14:19 · 133 阅读 · 0 评论 -
对比Auditbeat和Filebeat(auditd模块)采集linux审计日志(audit.log)
0 前提条件已经安装并部署好了EFK集群,EFK集群从零开始部署详见教程。原创 2021-03-24 21:14:14 · 1660 阅读 · 0 评论 -
Spark-Streaming流式处理学习与快速入门指南
1 Spark Streaming是什么Spark Streaming 是 Spark 核心 API 的扩展, 用于构建弹性, 高吞吐量, 容错的在线数据流的流式处理程序. 总之一句话: Spark Streaming 用于流式数据的处理在 Spark Streaming 中,处理数据的单位是一批而不是单条,而数据采集却是逐条进行的,因此 Spark Streaming 系统需要设置间隔使得数据汇总到一定的量后再一并操作,这个间隔就是批处理间隔。批处理间隔是 Spark Streaming 的核心概念原创 2021-06-23 22:22:14 · 281 阅读 · 4 评论 -
Ubantu自动搭建(hadoop+hbase+spark+zookeeper)分布式集群脚本
本文提供一键式部署大数据集群的脚本,用户只需输入对应的信息并按脚本执行即可。对应的下载资料如下:链接:https://pan.baidu.com/s/1AVlLbP2MNPLOAzmo75rpMQ提取码:e1af1 前提条件1) 操作系统:必须 Ubuntu一键部署下的软件默认配置为Ubantu系统。2) 必须安装ssh服务a. ssh服务安装命令如下:apt-get install openssh-serverb. ssh服务启动命令如下:service ssh restartc.原创 2020-08-30 20:21:54 · 226 阅读 · 0 评论 -
HDFS高可用集群搭建
0 前提条件1)安装JDK2)安装zookeeper3)集群规划192.168.199.101192.168.199.102192.168.199.103NameNodeNameNodeJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeZKZKZKResourceManagerResourceManagerNodeManagerNodeManagerNodeMa原创 2021-05-06 20:17:52 · 312 阅读 · 3 评论 -
Spark-SQL学习与快速入门
0 什么是 Spark SQLSpark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块.与基本的 Spark RDD API 不同, Spark SQL 的抽象数据类型为 Spark 提供了关于数据结构和正在执行的计算的更多信息.在内部, Spark SQL 使用这些额外的信息去做一些额外的优化.有多种方式与 Spark SQL 进行交互, 比如: SQL 和 Dataset API. 当计算结果的时候, 使用的是相同的执行引擎, 不依赖你正在使用原创 2021-06-24 12:30:36 · 362 阅读 · 4 评论 -
零基础搭建Hadoop分布式集群
Hadoop分布式集群搭建0 基本介绍在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!换个角度说,大数据是:1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具(hadoop、spark、storm、flink、tez、impala…)电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法原创 2020-09-02 00:00:44 · 184 阅读 · 0 评论 -
服务监控系统Promethus简介/快速入门
1 Promethus基本概念Prometheus 是由 SoundCloud 开源监控告警解决方案。prometheus存储的是时序数据,即按相同时序(相同名称和标签),以时间维度存储连续的数据的集合。时序(time series)是由名字(Metric)以及一组key/value标签定义的,具有相同的名字以及标签属于相同时序。Prometheus Server:用于收集指标和存储时间序列数据,并提供查询接口client Library:客户端库(例如Go,Python,Java等),为原创 2020-09-11 23:48:15 · 1613 阅读 · 0 评论 -
轻量级分布式协调工具Etcd介绍和使用
Etcd是CoreOS基于Raft协议开发的分布式key-value存储,可用于服务发现、共享配置以及一致性保障(如数据库选主、分布式锁等)。原创 2022-09-04 19:26:24 · 2386 阅读 · 0 评论 -
键值型非关系型数据库Redis使用说明大全
0 介绍Redis是一个开源的key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,Redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是Redis会周期性的把更新原创 2021-10-19 20:22:27 · 175 阅读 · 0 评论 -
SparkHA高可用集群搭建
1 Spark HA高可用模式部署如果设置master只有一个, 所以也可能单点故障问题。可以启动多个 master, 先启动的处于 Active 状态, 其他的都处于 Standby 状态。步骤1: 给 spark-env.sh 添加如下配置添加上如下内容:export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master-1:2181,master-2:原创 2021-05-15 18:36:01 · 243 阅读 · 0 评论 -
Spark standalone和yarn模式安装部署
1 安装1) 下载https://archive.apache.org/dist/spark/2) 解压下载安装包tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz2 standalone模式2.1 说明构建一个由 Master + Slave 构成的 Spark 集群,Spark 运行在集群中。这个要和 Hadoop 中的 Standalone 区别开来. 这里的 Standalone 是指只用 Spark 来搭建一个集群, 不需要借助其他的框架.是相对于 Yar原创 2021-05-15 18:26:35 · 1038 阅读 · 0 评论 -
大数据组件之Phoenix 快速入门和基本用法
0 介绍Phoenix 构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API.在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我们也少写了很多代码。1 特点1) 将 SQl 查询编译为 HBase 扫描2) 确定扫描 Rowkey 的最佳开始和结束位置3) 扫描并行执行4) 将 where 子句推送到服务器端的过滤器5) 通过协处理原创 2021-05-13 19:14:33 · 943 阅读 · 3 评论 -
Hbase JAVA API和HBase-MapReduce基本示例
1 Region server架构原创 2021-05-13 18:56:16 · 512 阅读 · 0 评论 -
大数据组件之Hbase快速入门及其使用
1 安装1)解压tar -zxvf HBase-1.3.1-bin.tar.gz2) 解压完成后进入conf目录3) 修改HBase-env.sh内容指定JAVA_HOME目录4) 修改 HBase-site.xml内容注:这里需要安装并指定zookeeper集群和hadoop集群,如未安装,可点这里<configuration> <property> <name>hbase.rootdir</name> <原创 2021-05-11 20:27:04 · 285 阅读 · 14 评论 -
分布式缓存KV数据库Redis安装说明
0 简介Redis:Remote Dictionary Server(远程字典服务器)。是完全开源免费的,用C语言编写的,遵守BSD协议,是一个高性能的(key/value)分布式内存数据库,基于内存运行并支持持久化的NoSQL数据库,是当前最热门的NoSQL数据库之一,也被人们称为数据结构服务器。Redis与其他key - value缓存产品有以下三个特点:1、Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。2、Redis不仅仅支持简单的key - va原创 2020-09-16 22:08:22 · 309 阅读 · 0 评论 -
ElasticSearsh--分布式搜索和分析引擎(三)之API使用
0 说明Elasticsearsh集群安装部署点这里Elaticsearsh RESTFul API使用说明点这里本文详细说明安装Elasticsearsh相关API的使用1 相关介绍Elasticsearch的Java客户端非常强大;它可以建立一个嵌入式实例并在必要时运行管理任务。运行一个Java应用程序和Elasticsearch时,有两种操作模式可供使用。该应用程序可在Elasticsearch集群中扮演更加主动或更加被动的角色。在更加主动的情况下(称为Node Client),应用程序实原创 2020-09-15 22:52:47 · 206 阅读 · 0 评论 -
ElasticSearsh--分布式搜索和分析引擎(二)之RestFulAPI使用说明
0 说明本节重点说明Elasticsearsh的RESTFulAPI详细使用ElaaticSearsh集群部署详见我另一篇文章《ElasticSearsh–分布式搜索和分析引擎(一)之安装与介绍》1 格式http://your_ipaddr:9200/<index>/<type>/[<id>]其中index、type是必须提供的。id是可选的,不提供es会自动生成。index、type将信息进行分层,利于管理。index可以理解为数据库;type理解为数原创 2020-09-15 22:26:54 · 182 阅读 · 0 评论 -
ElasticSearsh--分布式搜索和分析引擎(一)之安装与介绍
ElasticSearsh–分布式搜索和分析引擎安装与介绍1 安装进入官网下载相应版本的软件https://www.elastic.co/cn/elasticsearch/1.1 下载安装包并解压,打开并配置elasticsearch.yml文件注:如果要配置集群需要两个节点上的elasticsearch配置的cluster.name相同,都启动可以自动组成集群,这里如果不改cluster.name则默认是cluster.name=my-application。nodename随意取但是集群原创 2020-09-14 22:49:52 · 244 阅读 · 0 评论 -
大数据组件之OOZIE介绍/极速入门
1 基本概念在字典中搜索oozie一词,可以看到如下释义:没错,就是训象人!大象,你想到了什么?没错就是hadoop的logo,一只黄色的小象。所以光从这个翻译来看,你就应该明白oozie是做什么的了吧。接下来我们详细介绍2 oozie概念Hadoop常见调度框架:(1)Linux Crontab:Linux自带的任务调度计划,在任务比较少的情况下,可以使用这种方式,直接执行脚本,例如添加一个执行计划: 0 12 * hive -f xxx.sql(2)Azkaban:(3)Oozie:原创 2020-09-10 22:08:42 · 1086 阅读 · 0 评论 -
大数据存储技术之KUDU学习总结/快速入门
KUDU学习总结1 基础概念官方:https://kudu.apache.org/在 KUDU 之前,大数据主要以两种方式存储:• 静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。• 动态数据:以 HBase、Cassandra 作为存储引擎,适用于大数据随机读写场景。这类存储的局限性是批量读取吞吐量远不如 HDFS,不适用于批量数据分析的场景。从上面分析可知,这两种数据在存储方式上完全不同,进而导致使用场景完全不同,但在真原创 2020-09-10 21:50:53 · 847 阅读 · 0 评论 -
KV型数据库Redis集群安装部署/快速入门
Redis3集群安装1. 什么是RedisRedis是目前一个非常优秀的key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set有序集合)和hash(哈希类型)。2. 安装Redis1.下载redis3的稳定版本,下载地址http://download.redis.io/releases/redis-3.2.11.tar.gz2.上传redis-3.2.11.tar.gz到原创 2020-09-09 22:24:45 · 181 阅读 · 0 评论 -
Spark集群运行在yarn上
1. 官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2. 配置安装2.1 安装hadoop需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。2.2安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序将作为YARN的客户端用于提交任务export JAVA_HOME=/usr/local/jdk1.8.0_131exp原创 2020-09-08 22:59:41 · 372 阅读 · 0 评论 -
Spark SQL简介与快速入门
1 Spark SQL1.1 Spark SQL概述1.1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。1.1.2 为什么要学习Spark SQL我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将S原创 2020-09-08 22:52:33 · 165 阅读 · 0 评论 -
Spark算子RDD介绍
1 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。1.2 RDD的属性1)一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处原创 2020-09-08 22:18:44 · 141 阅读 · 0 评论 -
Spark快速入门详解/分析
1 Spark概述1.1 什么是Spark官网:http://spark.apache.orgSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内原创 2020-09-08 22:09:17 · 258 阅读 · 0 评论 -
大数据组件之数据迁移工具Sqoop学习/快速入门
大数据组件之数据迁移工具Sqoop1 Sqoop介绍sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等2 工作机制将导入或导出命令翻译成mapreduce程序来实现,再翻译出的mapreduce中主要是对inputformat和outputformat进行定制3 Sqoop安装安装sqoo原创 2020-09-06 23:28:40 · 437 阅读 · 0 评论 -
大数据组件之数据采集工具FLume介绍/快速入门
大数据组件之数据采集工具FLume介绍/快速入门1 背景在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:图:典型大规模离线数据处理平台2 Flume日志采集框架2.1 Flume介绍1)Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。2)Flume可以采集文件,socket数据包、文件、文件原创 2020-09-06 23:11:44 · 959 阅读 · 0 评论 -
分布式数据库HBASE快速入门
分布式数据库HBASE快速入门1 什么是HBASE1.1. 概念特性HBASE是一个数据库----可以提供数据的实时随机读写HBASE与mysql、oralce、db2等关系型数据库不同,它是一个NOSQL数据库a Hbase的表模型与关系型数据库的表模型不同:b Hbase的表没有固定的字段定义;c Hbase的表中每行存储的都是一些key-value对d Hbase的表中有列族的划分,用户可以指定将哪些kv插入哪个列族e Hbase的表在物理存储上,是按照列族来分割的,不同列族的数据一原创 2020-09-06 22:27:30 · 245 阅读 · 0 评论 -
Zookeeper快速入门(Zookeeper分布式协调系统)
1 zookeeper的基本功能和应用场景ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。2 zookeeper的整体运行机制3 zookeeper的数据存储机制3.1. 数据存储形式zookeeper中对用户的数据采用kv形式存储只是zk有点特别:key:是以路径的形式表示的,那就以为着,原创 2020-09-02 22:49:03 · 1680 阅读 · 0 评论 -
大数据组件之Kafka学习指南/快速入门
Kafka学习总结1、Kafka简介Kafka是一个开源的分布式消息引擎/消息中间件,同时Kafka也是一个流处理平台。Kakfa支持以发布/订阅的方式在应用间传递消息,同时并基于消息功能添加了Kafka Connect、Kafka Streams以支持连接其他系统的数据(Elasticsearch、Hadoop等)Kafka最核心的最成熟的还是他的消息引擎,所以Kafka大部分应用场景还是用来作为消息队列削峰平谷。另外,Kafka也是目前性能最好的消息中间件。2、Kafka架构![在这里插入图片原创 2020-08-30 20:46:04 · 401 阅读 · 0 评论