大数据从入门到精通
文章平均质量分 85
主要介绍大数据领域各个组件的基本操作到实战,比如zookeeper、kafka、hive、hbase、spark、hadoop、flink等,从基础的应用到底层原理,再到代码集成使用,真正让你攻克大数据领域每一个组件,并能够结合实战应用。
Alex_81D
修身,赚钱,助人,玩天下
展开
-
【ELK05】es的java-api操作-Java High Level REST Client常用功能
ES支持多种语言客户都安,包括ruby js python java go .net等,其中java目前最新版本的客户都安支持2种方式。一种是旧版已经过时的transport client ,一种是,前者是通过tcp协议链接访问es,后者就是java代码实现的REST访问。原创 2024-02-26 14:22:03 · 563 阅读 · 0 评论 -
【ELK04】ES 分词计算、IK分词器安装使用手册和热词动态更新
文本分析使Elasticsearch能够执行全文搜索,其中搜索返回所有相关结果,而不仅仅是精确匹配.如果您搜索"王者荣耀",您可能希望包含"王者","荣耀"和"王者荣耀"的文档,还可能希望包含相关"王"或"者"的文档。ES中为了方便查询,提供多维度的查询功能,对存储在索引中的文档进行分词计算,但是文本内容不同,类型不同,语言不同分词计算逻辑就不会一样.内置的分词器可以处理一下通用场景,对于中文来讲常用的是IK分词器,ES也支持IK分词器的插件,IK分词器是基于词典的分词器,这让我们可以。原创 2023-12-14 22:45:00 · 1973 阅读 · 0 评论 -
【ELK03】ES 索引的Mapping映射详解、数据类型和settings属性设置
ES 索引的映射和设置&以及分词计算和热词更新操作原创 2023-12-08 21:30:00 · 2248 阅读 · 1 评论 -
【ELK02】ES的重要核心概念和索引常用操作-索引文档管理、文档搜索
ES的核心概念和常用操作-索引数据和索引管理原创 2023-11-24 23:15:00 · 1270 阅读 · 0 评论 -
【ELK01】ELK简介以及ElasticSearch安装、ES客户端工具-Head安装、报错问题整理
ELK 是elastic公司提供的一套完整的日志收集以及展示的解决方案,是三个产品的首字母缩写,分别是ElasticSearch、Logstash 和 Kibana。head插件是一个可以帮助用户代理访问es的,可以图形界面展示数据的插件.我们配置了es的跨域开启,所以为了方便观察,我们可以安装head插件。原创 2023-11-16 22:45:00 · 995 阅读 · 0 评论 -
Idea 离线安装MavenRunHelper插件并排查Hbase中Guava冲突问题解决
通过Maven Helper工具查找依赖冲突项,排除修改冲突依赖,从而解决出现问题的依赖。原创 2023-08-15 00:30:00 · 954 阅读 · 0 评论 -
【Redis 02】Redis安装与高性能原理剖析
上节说了redis的常用的数据结构和操作,以及每种数据结构适用的场景,本篇文章主要说一下Redis的安装和性能搞的原因。原创 2023-08-31 19:09:10 · 262 阅读 · 0 评论 -
【Redis 01】Redis介绍以及5种核心数据结构剖析
今天开始进入Redis专题,这个专题主要会聊一聊redis常用的数据结构,redis的主从、哨兵、分布式集群等架构,以及redis的分布式锁,redis性能优化源码剖析等。首先来看一下redis是什么?。Redis就是一个C语言开发的、基于内存结构进行 键值对 数据存储的、高性能的、非关系型NoSQL数据库。Redis 是完全开源的,遵守 BSD 协议,是一个高性能的 key-value 数据库。Redis 与其他 key - value 缓存产品有以下三个特点:Redis有着更为复杂的数据结构并且提供对原创 2023-06-13 22:54:34 · 731 阅读 · 0 评论 -
spark读取、写入Clickhouse以及遇到的问题
最近需要处理Clickhouse里面的数据,经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。原创 2023-05-05 22:45:00 · 1785 阅读 · 0 评论 -
【Hbase 06】spark读写Hbase数据库以及Hbase util工具常用方法类封装(java和scala版本)
Spark处理的数据有很多是存放在HBase数据库中的,所以,我们需要学会如何读写HBase数据库。版本依赖支持关系请看博主的上一篇文章,Hbase的版本很重要,别整差了。原创 2023-06-03 15:30:00 · 1080 阅读 · 0 评论 -
【Hbase 04】Hbase读写过程流程详解
本文主要讲一下从架构层面的读写流程以及Hbase读写过程的详细过程原创 2023-05-07 22:59:28 · 606 阅读 · 0 评论 -
【Hbase 03】Hbase基本架构和重要组件说明
Hbase基本架构可能很多人比较好奇Zookeeper在hbase中到底担任什么作用?在HBase中,Zookeeper充当了注册中心当HBase启动之后,会自动的在Zookeeper上来注册一个/hbase节点当Active HMaster启动之后,会自动的在Zookeeper上注册一个临时节点/hbase/master - 当Active HMaster宕机之后,这个临时节点就会消失,此时Zookeeper就会从Backup HMasters中选择最早注册的节点来切换为Active状态当Backup H原创 2023-04-08 22:27:29 · 447 阅读 · 0 评论 -
【Hbase 05】Hbase表的设计原则与优化方案
这里说一下Hbase在使用过程中的表设计原则与优化方案,如果你是运维或者开发兼顾环境的工作,比较受用原创 2023-05-24 23:30:00 · 801 阅读 · 0 评论 -
【Hbase 02】Hbase超详细安装和注意问题点
本文主要讲一下Hbase的安装相关的内容。原创 2023-04-01 23:30:00 · 538 阅读 · 0 评论 -
【Hbase 01】Hbase基本介绍和常用命令以及和hive的区别
HBase本质上是一个非关系型数据库,在实际过程中,用于存储数据。因为HBase的读写效率较高,吞吐量较大,因此一般使用HBase来存储实时的数据,最终数据会落地到HDFS上。HBase作为数据库,提供了完整的增删改查的能力,但是相对而言,HBase的事务能力较弱。HBase不支持SQL,提供了一套完整的命令原创 2023-03-26 17:56:24 · 425 阅读 · 0 评论 -
【Docker 06】docker提交至docker hub以及常见错误处理
Docker官方维护了一个Docker Hub公共仓库 ,日常大部分需求都可以通过在 Docker Hub 中直接下载镜像来实现,但是有时需要根据自己的需要传自己制作的镜像上去,以供使用。本文主要讲解了怎么把自己的镜像推上去,详细步骤和过程中的问题,以供各位在试用的时候直接能用原创 2023-03-19 23:33:17 · 268 阅读 · 0 评论 -
【Docker 05】关于docker-compose介绍、安装、使用,看这一篇就够了
前面介绍了通过Dockerfile来制作镜像,然后进行打包,进行docker run启动,接下来说一个docker总比较重要的另一个东西--docker compose。docker compose 在 Docker 容器运用中具有很大的学习意义,是一个整合发布应用的利器。而使用 docker compose 时,懂得如何编排配置文件是很重要的。本文将会从docker-compose的介绍,安装,使用、案例等方面来介绍这一工具原创 2023-03-11 23:05:11 · 474 阅读 · 0 评论 -
【Docker 04】Dockerfile指令以及操作超全讲解
dockerfile 是构建镜像文件,他是由一系列的命令和脚本参数组成的,可以看成是镜像创建的源码dockerfile就是用来构建docker镜像的构建文件,命令参数脚本。原创 2023-02-24 23:10:50 · 327 阅读 · 0 评论 -
【Docker 03】docker的数据共享法宝-数据卷技术
docker和宿主机进行数据的共享,使用的技术叫做数据卷技术。场景:如果容器使用msyql 创建了数据库。默认数据库数据存户在容器中的。但是容器随时可能被移动或者删除,数据就随之消失,这是非常不合理的。或者其他应用场景,我们希望通过配置宿主机的文件,实现容器内部的公用,比如nginx的静态文件,配置文件nginx.conf,如果使用容器内部的数据文件,总需要进入容器,这也是相对比麻烦的。原创 2023-02-12 01:10:57 · 6577 阅读 · 0 评论 -
【Docker 02】docker镜像和容器命令大全
对于入门学习者,更推荐的方式是通过官网的Reffrence手册,学习使用命令,不仅存在用法,选项参数的解释,还有用力example。本文讲解docker命令的基本语法结构+实战原创 2023-02-04 11:00:00 · 5116 阅读 · 0 评论 -
【Docker 01】docker安装和基本理论内容
本文从docker基础知识开始讲解,从docker的来源,docker是什么,到docker如何安装,安装过程中遇到的坑是什么,通过白话的方式讲解docker东西,开启docker新的序列原创 2023-01-29 23:45:00 · 3811 阅读 · 0 评论 -
循序渐进大数据组件之--【Zookeeper 04】Java-API调用,代码操作
前面的章节都在说zookeeper的原理、特性、安装方式、服务使用等,本章节说一下zookeeper该如果在java代码中做一些操作,如 :连接、增加节点、删除节点、查询节点、修改节点数据、节点状态监控等。至此,zookeeper的基本操作到此结束!废话不多说,直接上代码。原创 2023-01-15 00:00:00 · 9490 阅读 · 0 评论 -
循序渐进大数据组件之--【Zookeeper 03】进阶(选举机制以及ZBA协议)
Zookeeper进阶(选举机制以及ZBA协议),ZAB(Zookeeper Atomic Broadcast)协议是专门为zookeeper设计的用于进行原子广播和崩溃恢复的一套协议 。ZAB是基于2PC算法设计实现的,利用了过半性+PAXOS进行了改进原创 2023-01-06 18:12:20 · 9558 阅读 · 0 评论 -
循序渐进大数据组件之--【Zookeeper 02】安装和使用详情
这一篇主要内容为 Zookeeper安装和使用,下一篇讲解zookeeper的选举机制和相关的ZBA协议原创 2022-12-31 23:30:00 · 10067 阅读 · 0 评论 -
循序渐进大数据组件之--【Zookeeper 01】特点和应用场景
大数据生态系统里很多组件的命名都是某种动物,例如Hadoop是🐘,hive是🐝,zookeeper就是动物园管理者,是管理大数据生态系统各组件的管理员。本文主要介绍zk的一些基本概念原创 2022-12-29 23:45:00 · 6954 阅读 · 0 评论 -
大数据平台架构及主流技术栈
大数据平台架构及主流技术栈转载 2022-12-01 23:45:00 · 21730 阅读 · 0 评论 -
Flume实时采集mysql数据到kafka中并输出
Flume实时采集mysql数据到kafka中并输出。Apache Flume是一个分布式的、可靠的、可用的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储。在大数据生态圈中,flume经常用于完成数据采集的工作。其实时性很高,延迟大约1-2s,可以做到准实时。又因为mysql是程序员常用的数据库,所以以flume实时采集mysql数据库为例子。要了解flume如何采集数据,首先要初探其架构:Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。原创 2022-11-30 23:30:00 · 5762 阅读 · 0 评论 -
用idea新建maven项目,创建Scala项目--做个记录
最近需要个干净的spark项目,之前项目上的项目太过复杂,就索性搭建一个全新的spark-java maven项目,做个记录,免得下次又得找,步骤如下:一、 新建maven项目1. File-> New -> project -> macen -> 勾选Create From archetype2. 设置GroupID和ArtifactID (这个你看这写),点击next3.配置maven,如果不配最后进到项目也可以配置,建议提前配好;file->set原创 2021-06-15 11:33:06 · 3553 阅读 · 1 评论 -
Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?
Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存和checkpoint是懒加载操作,只有action触发的时候才会真正执行,其实不仅是Spark RDD,在Spark其他组件如SparkStreaming中也是如此,这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子,而collect、cou转载 2020-12-18 10:56:28 · 849 阅读 · 0 评论 -
Spark读取Hive的方式以及出现的雷坑
spark读取Hive的三种方式1.HiveJDBC2.通过服务的方式直接读数据源因为hive只是起到映射的作用,所以最简单、直观的方式就是直接读取数据的存储组件(HDFS\HBASE)1.HiveJDBC方式一:val spark = pec.get[SparkSession]()val dbtable = "( " + sql + ") AS Temp"val jdbcDF = spark.read.format("jdbc") .option("url", jdbc原创 2022-04-27 10:43:46 · 3533 阅读 · 0 评论 -
Scala学习笔记-基础语法和语法糖
目录一、apply方法说明二、scala中,::,+:,:+,:::,+++的区别三、Scala中的元组一、apply方法说明当scala中类或者对象有一个主要用途的时候,apply方法就是一个很好地语法糖。伴生对象的解释是:实现类似 Java中那种既有实例成员又有静态成员的类的功能。为什么上面说它是一种 “功能”呢?因为要想实现像Java中那样的类,光靠一个Scala类可不行。在Scala中,我们必须:1.定义一个 class并在这里面实现所有的实例...原创 2022-03-01 14:19:58 · 7391 阅读 · 0 评论 -
循序渐进大数据组件之--Hadoop
最近学习了Hadoop,做一些小的总结:hadoop 两大核心1.hdfs : 用于存储数据1.1 分块 block 默认128mb,1.2 不足128mb的数据,只占其本身的大小,128mb就是是一个逻辑概念1.3 block会默认复制三份,用来防治 数据丢失。1.4 hdfs不适用存大量小文件,元数据信息过多导致NameNode压力增加1.5NameNode:管理dataNode 读写数据负责元数据管理,当client端 要读取或者写入数据,会首先跟NN通信,然后NN指定你去...原创 2020-12-24 18:34:34 · 12481 阅读 · 2 评论 -
Hadoop集群增加节点不删数据详细操作步骤
Hadoop集群增加节点不删数据详细操作步骤:首先说一下这篇文章:今天主要说说当节点不够时,如何快速扩容,一会会儿就搞定了,上步骤:前面这些步骤跟上面一样,我就不细说了。原创 2022-10-26 16:14:24 · 1387 阅读 · 0 评论 -
SparkSql批量插入或更新,保存数据到Mysql中
在sparksql中,保存数据到数据,只有Append,Overwrite,ErrorIfExists,Ignore四种模式,不满足项目需求,此处大概说一下我们需求,当业务库有数据发生变化,需要更新、插入、删除数仓中ods层的数据,因此需要改造源码。......原创 2022-07-20 15:41:16 · 12606 阅读 · 0 评论 -
Es入门之kibana对Elasticsearch做增删改查等自定义操作
问题:通过match_all匹配后,会把所有的数据检索出来,但是往往真正的业务需求并非要找全部的数据,而是检索出自己想要的;Range过滤允许我们按照指定的范围查找一些数据:操作范围:gt::大于,gte::大于等于,lt::小于,lte::小于等于。2)找到原始数据中,所有性别是男生的,过滤年龄等于20的。如果此时想查询喜欢旅游的,并且不能是男孩的,怎么办?查询喜欢旅行的,如果有男性的则显示,否则不显示。查询出喜欢旅行的,并且年龄是20岁的文档。1)找到原始数据中,是女生的,喜欢旅游的。原创 2022-05-17 10:56:54 · 693 阅读 · 0 评论 -
Spark的算子操作列表
Spark的算子操作列表转载 2022-07-26 10:38:53 · 896 阅读 · 0 评论 -
循序渐进大数据组件之--Hive
最近学习了一下hive,对其有一些想法,写出来分享一下,本文有些内容转自搜狐文章,文底部会贴出:目录导读:同时补充一下hive与hbase的联系与区别:拓展:hive的几个特点和用法:创建:查询:函数:存储:分区:顺便简单的说一下 sqoop:导读:对于一个事物的认识,存在几种情况1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它原创 2020-12-04 15:35:14 · 9487 阅读 · 0 评论 -
hive详细安装步骤启动等
此文章包含两部分,一部分是mysql的安装,一部分是hive的安装和启动,当然安装mysql是为了给hive做元信息存储,使用本文的前提是Hadoop已经安装。原创 2022-10-18 19:28:09 · 10273 阅读 · 0 评论 -
spark 基础语法整理
这几天想着整理整理spark的基础语法,适合小白参考,话不多说,直接干活,这篇文章我会持续更新一、spark打印RDD的值spark打印RDD或者list的值val spark = SparkSession.builder().master("local[*]").appName("test").getOrCreate()val sc:SparkContext = spark.sparkContextsc.setLogLevel("warn")val data = sc.parallel原创 2021-06-15 17:17:04 · 943 阅读 · 0 评论 -
Spark on Hive 和 Hive on Spark的区别与实现
Spark on Hive 是Hive只作为存储角色,Spark负责sql解析优化,执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下:【总结】Spark使用Hive来提供表的metadata信息。Hive on Spark是Hive既作为存储又负责sql的解析优化,Spark负责执行。这里Hive的执行引擎变成了Spark,不再是MR,这个要实现比Spark on Hive麻烦很多, 必须重新编译你的spark和导入原创 2022-06-13 11:03:40 · 3642 阅读 · 0 评论