
大数据从入门到精通
文章平均质量分 85
主要介绍大数据领域各个组件的基本操作到实战,比如zookeeper、kafka、hive、hbase、spark、hadoop、flink等,从基础的应用到底层原理,再到代码集成使用,真正让你攻克大数据领域每一个组件,并能够结合实战应用。
Alex_81D
修身,赚钱,助人,玩天下
展开
-
【ELK05】es的java-api操作-Java High Level REST Client常用功能
ES支持多种语言客户都安,包括ruby js python java go .net等,其中java目前最新版本的客户都安支持2种方式。一种是旧版已经过时的transport client ,一种是,前者是通过tcp协议链接访问es,后者就是java代码实现的REST访问。原创 2024-02-26 14:22:03 · 652 阅读 · 0 评论 -
【ELK04】ES 分词计算、IK分词器安装使用手册和热词动态更新
文本分析使Elasticsearch能够执行全文搜索,其中搜索返回所有相关结果,而不仅仅是精确匹配.如果您搜索"王者荣耀",您可能希望包含"王者","荣耀"和"王者荣耀"的文档,还可能希望包含相关"王"或"者"的文档。ES中为了方便查询,提供多维度的查询功能,对存储在索引中的文档进行分词计算,但是文本内容不同,类型不同,语言不同分词计算逻辑就不会一样.内置的分词器可以处理一下通用场景,对于中文来讲常用的是IK分词器,ES也支持IK分词器的插件,IK分词器是基于词典的分词器,这让我们可以。原创 2023-12-14 22:45:00 · 2024 阅读 · 0 评论 -
【ELK03】ES 索引的Mapping映射详解、数据类型和settings属性设置
ES 索引的映射和设置&以及分词计算和热词更新操作原创 2023-12-08 21:30:00 · 2369 阅读 · 1 评论 -
【ELK02】ES的重要核心概念和索引常用操作-索引文档管理、文档搜索
ES的核心概念和常用操作-索引数据和索引管理原创 2023-11-24 23:15:00 · 1302 阅读 · 0 评论 -
【ELK01】ELK简介以及ElasticSearch安装、ES客户端工具-Head安装、报错问题整理
ELK 是elastic公司提供的一套完整的日志收集以及展示的解决方案,是三个产品的首字母缩写,分别是ElasticSearch、Logstash 和 Kibana。head插件是一个可以帮助用户代理访问es的,可以图形界面展示数据的插件.我们配置了es的跨域开启,所以为了方便观察,我们可以安装head插件。原创 2023-11-16 22:45:00 · 1130 阅读 · 0 评论 -
【Redis 02】Redis安装与高性能原理剖析
上节说了redis的常用的数据结构和操作,以及每种数据结构适用的场景,本篇文章主要说一下Redis的安装和性能搞的原因。原创 2023-08-31 19:09:10 · 290 阅读 · 0 评论 -
Idea 离线安装MavenRunHelper插件并排查Hbase中Guava冲突问题解决
通过Maven Helper工具查找依赖冲突项,排除修改冲突依赖,从而解决出现问题的依赖。原创 2023-08-15 00:30:00 · 1074 阅读 · 0 评论 -
【Redis 01】Redis介绍以及5种核心数据结构剖析
今天开始进入Redis专题,这个专题主要会聊一聊redis常用的数据结构,redis的主从、哨兵、分布式集群等架构,以及redis的分布式锁,redis性能优化源码剖析等。首先来看一下redis是什么?。Redis就是一个C语言开发的、基于内存结构进行 键值对 数据存储的、高性能的、非关系型NoSQL数据库。Redis 是完全开源的,遵守 BSD 协议,是一个高性能的 key-value 数据库。Redis 与其他 key - value 缓存产品有以下三个特点:Redis有着更为复杂的数据结构并且提供对原创 2023-06-13 22:54:34 · 762 阅读 · 0 评论 -
【Hbase 06】spark读写Hbase数据库以及Hbase util工具常用方法类封装(java和scala版本)
Spark处理的数据有很多是存放在HBase数据库中的,所以,我们需要学会如何读写HBase数据库。版本依赖支持关系请看博主的上一篇文章,Hbase的版本很重要,别整差了。原创 2023-06-03 15:30:00 · 1188 阅读 · 0 评论 -
【Hbase 05】Hbase表的设计原则与优化方案
这里说一下Hbase在使用过程中的表设计原则与优化方案,如果你是运维或者开发兼顾环境的工作,比较受用原创 2023-05-24 23:30:00 · 862 阅读 · 0 评论 -
【Hbase 04】Hbase读写过程流程详解
本文主要讲一下从架构层面的读写流程以及Hbase读写过程的详细过程原创 2023-05-07 22:59:28 · 651 阅读 · 0 评论 -
spark读取、写入Clickhouse以及遇到的问题
最近需要处理Clickhouse里面的数据,经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。原创 2023-05-05 22:45:00 · 2032 阅读 · 0 评论 -
【Hbase 03】Hbase基本架构和重要组件说明
Hbase基本架构可能很多人比较好奇Zookeeper在hbase中到底担任什么作用?在HBase中,Zookeeper充当了注册中心当HBase启动之后,会自动的在Zookeeper上来注册一个/hbase节点当Active HMaster启动之后,会自动的在Zookeeper上注册一个临时节点/hbase/master - 当Active HMaster宕机之后,这个临时节点就会消失,此时Zookeeper就会从Backup HMasters中选择最早注册的节点来切换为Active状态当Backup H原创 2023-04-08 22:27:29 · 473 阅读 · 0 评论 -
【Hbase 02】Hbase超详细安装和注意问题点
本文主要讲一下Hbase的安装相关的内容。原创 2023-04-01 23:30:00 · 588 阅读 · 0 评论 -
【Hbase 01】Hbase基本介绍和常用命令以及和hive的区别
HBase本质上是一个非关系型数据库,在实际过程中,用于存储数据。因为HBase的读写效率较高,吞吐量较大,因此一般使用HBase来存储实时的数据,最终数据会落地到HDFS上。HBase作为数据库,提供了完整的增删改查的能力,但是相对而言,HBase的事务能力较弱。HBase不支持SQL,提供了一套完整的命令原创 2023-03-26 17:56:24 · 457 阅读 · 0 评论 -
【Docker 06】docker提交至docker hub以及常见错误处理
Docker官方维护了一个Docker Hub公共仓库 ,日常大部分需求都可以通过在 Docker Hub 中直接下载镜像来实现,但是有时需要根据自己的需要传自己制作的镜像上去,以供使用。本文主要讲解了怎么把自己的镜像推上去,详细步骤和过程中的问题,以供各位在试用的时候直接能用原创 2023-03-19 23:33:17 · 324 阅读 · 0 评论 -
【Docker 05】关于docker-compose介绍、安装、使用,看这一篇就够了
前面介绍了通过Dockerfile来制作镜像,然后进行打包,进行docker run启动,接下来说一个docker总比较重要的另一个东西--docker compose。docker compose 在 Docker 容器运用中具有很大的学习意义,是一个整合发布应用的利器。而使用 docker compose 时,懂得如何编排配置文件是很重要的。本文将会从docker-compose的介绍,安装,使用、案例等方面来介绍这一工具原创 2023-03-11 23:05:11 · 520 阅读 · 0 评论 -
【Docker 04】Dockerfile指令以及操作超全讲解
dockerfile 是构建镜像文件,他是由一系列的命令和脚本参数组成的,可以看成是镜像创建的源码dockerfile就是用来构建docker镜像的构建文件,命令参数脚本。原创 2023-02-24 23:10:50 · 355 阅读 · 0 评论 -
【Docker 03】docker的数据共享法宝-数据卷技术
docker和宿主机进行数据的共享,使用的技术叫做数据卷技术。场景:如果容器使用msyql 创建了数据库。默认数据库数据存户在容器中的。但是容器随时可能被移动或者删除,数据就随之消失,这是非常不合理的。或者其他应用场景,我们希望通过配置宿主机的文件,实现容器内部的公用,比如nginx的静态文件,配置文件nginx.conf,如果使用容器内部的数据文件,总需要进入容器,这也是相对比麻烦的。原创 2023-02-12 01:10:57 · 6632 阅读 · 0 评论 -
【Docker 02】docker镜像和容器命令大全
对于入门学习者,更推荐的方式是通过官网的Reffrence手册,学习使用命令,不仅存在用法,选项参数的解释,还有用力example。本文讲解docker命令的基本语法结构+实战原创 2023-02-04 11:00:00 · 5164 阅读 · 0 评论 -
【Docker 01】docker安装和基本理论内容
本文从docker基础知识开始讲解,从docker的来源,docker是什么,到docker如何安装,安装过程中遇到的坑是什么,通过白话的方式讲解docker东西,开启docker新的序列原创 2023-01-29 23:45:00 · 3845 阅读 · 0 评论 -
循序渐进大数据组件之--【Zookeeper 04】Java-API调用,代码操作
前面的章节都在说zookeeper的原理、特性、安装方式、服务使用等,本章节说一下zookeeper该如果在java代码中做一些操作,如 :连接、增加节点、删除节点、查询节点、修改节点数据、节点状态监控等。至此,zookeeper的基本操作到此结束!废话不多说,直接上代码。原创 2023-01-15 00:00:00 · 9555 阅读 · 0 评论 -
循序渐进大数据组件之--【Zookeeper 03】进阶(选举机制以及ZBA协议)
Zookeeper进阶(选举机制以及ZBA协议),ZAB(Zookeeper Atomic Broadcast)协议是专门为zookeeper设计的用于进行原子广播和崩溃恢复的一套协议 。ZAB是基于2PC算法设计实现的,利用了过半性+PAXOS进行了改进原创 2023-01-06 18:12:20 · 9598 阅读 · 0 评论 -
循序渐进大数据组件之--【Zookeeper 02】安装和使用详情
这一篇主要内容为 Zookeeper安装和使用,下一篇讲解zookeeper的选举机制和相关的ZBA协议原创 2022-12-31 23:30:00 · 10100 阅读 · 0 评论 -
循序渐进大数据组件之--【Zookeeper 01】特点和应用场景
大数据生态系统里很多组件的命名都是某种动物,例如Hadoop是🐘,hive是🐝,zookeeper就是动物园管理者,是管理大数据生态系统各组件的管理员。本文主要介绍zk的一些基本概念原创 2022-12-29 23:45:00 · 6997 阅读 · 0 评论 -
大数据平台架构及主流技术栈
大数据平台架构及主流技术栈转载 2022-12-01 23:45:00 · 22038 阅读 · 0 评论 -
Flume实时采集mysql数据到kafka中并输出
Flume实时采集mysql数据到kafka中并输出。Apache Flume是一个分布式的、可靠的、可用的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储。在大数据生态圈中,flume经常用于完成数据采集的工作。其实时性很高,延迟大约1-2s,可以做到准实时。又因为mysql是程序员常用的数据库,所以以flume实时采集mysql数据库为例子。要了解flume如何采集数据,首先要初探其架构:Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。原创 2022-11-30 23:30:00 · 6238 阅读 · 0 评论 -
Hadoop集群增加节点不删数据详细操作步骤
Hadoop集群增加节点不删数据详细操作步骤:首先说一下这篇文章:今天主要说说当节点不够时,如何快速扩容,一会会儿就搞定了,上步骤:前面这些步骤跟上面一样,我就不细说了。原创 2022-10-26 16:14:24 · 1488 阅读 · 0 评论 -
hive详细安装步骤启动等
此文章包含两部分,一部分是mysql的安装,一部分是hive的安装和启动,当然安装mysql是为了给hive做元信息存储,使用本文的前提是Hadoop已经安装。原创 2022-10-18 19:28:09 · 10325 阅读 · 0 评论 -
超详细的yum方式安装mysql
本文主要介绍通过Yum方式安装mysql服务,此种方式比较简单,采用yum的方式,如果是采用离线安装包的方式请参考博主的另一篇文章:Linux安装mysql以及遇到的问题解决办法_Alex_81D的博客-CSDN博客原创 2022-10-18 18:41:41 · 18405 阅读 · 0 评论 -
window环境下安装大数据环境
window环境下安装大数据环境原创 2022-08-30 14:05:54 · 821 阅读 · 0 评论 -
Spark的算子操作列表
Spark的算子操作列表转载 2022-07-26 10:38:53 · 970 阅读 · 0 评论 -
SparkSql批量插入或更新,保存数据到Mysql中
在sparksql中,保存数据到数据,只有Append,Overwrite,ErrorIfExists,Ignore四种模式,不满足项目需求,此处大概说一下我们需求,当业务库有数据发生变化,需要更新、插入、删除数仓中ods层的数据,因此需要改造源码。......原创 2022-07-20 15:41:16 · 12726 阅读 · 0 评论 -
Spark on Hive 和 Hive on Spark的区别与实现
Spark on Hive 是Hive只作为存储角色,Spark负责sql解析优化,执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下:【总结】Spark使用Hive来提供表的metadata信息。Hive on Spark是Hive既作为存储又负责sql的解析优化,Spark负责执行。这里Hive的执行引擎变成了Spark,不再是MR,这个要实现比Spark on Hive麻烦很多, 必须重新编译你的spark和导入原创 2022-06-13 11:03:40 · 3832 阅读 · 0 评论 -
Es入门之kibana对Elasticsearch做增删改查等自定义操作
问题:通过match_all匹配后,会把所有的数据检索出来,但是往往真正的业务需求并非要找全部的数据,而是检索出自己想要的;Range过滤允许我们按照指定的范围查找一些数据:操作范围:gt::大于,gte::大于等于,lt::小于,lte::小于等于。2)找到原始数据中,所有性别是男生的,过滤年龄等于20的。如果此时想查询喜欢旅游的,并且不能是男孩的,怎么办?查询喜欢旅行的,如果有男性的则显示,否则不显示。查询出喜欢旅行的,并且年龄是20岁的文档。1)找到原始数据中,是女生的,喜欢旅游的。原创 2022-05-17 10:56:54 · 763 阅读 · 0 评论 -
Scala开发问题汇总
一、在scala的2.10.*时代,case class只支持22参数但是在scala2.11.*时代则没有这个问题。。。https://blog.csdn.net/feloxx/article/details/76605232二、Nil的含义Nil是一个空的List,定义为List[Nothing],根据List的定义List[+A],所有Nil是所有List[T]的子类。https://www.jianshu.com/p/2a61366355a7三、split的使用问题的出现原创 2022-05-10 13:27:57 · 130 阅读 · 0 评论 -
Spark读取Hive的方式以及出现的雷坑
spark读取Hive的三种方式1.HiveJDBC2.通过服务的方式直接读数据源因为hive只是起到映射的作用,所以最简单、直观的方式就是直接读取数据的存储组件(HDFS\HBASE)1.HiveJDBC方式一:val spark = pec.get[SparkSession]()val dbtable = "( " + sql + ") AS Temp"val jdbcDF = spark.read.format("jdbc") .option("url", jdbc原创 2022-04-27 10:43:46 · 3615 阅读 · 0 评论 -
循序渐进大数据组件之--Flink
最近学习了Flink,做一些小的总结:(预计这个我会出一个系列)先来看看Flink是什么:(出自官网)Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Meso原创 2022-04-21 15:29:24 · 2643 阅读 · 0 评论 -
docker安装oracle11g史上最全步骤(带图文)
注明:本文是参照大佬的文章的,大佬的有几处问题,我已经改了,还有就是一定要按照步骤一步一步来,不要耍过多的花样,给小白和临时用的人,其他的看情况!(我主要是给自己做个记录,下次好直接用)因为在Linux中安装oracle非常麻烦,相信每个人也会遇到各种坑,为了一次装好,也方便将来直接可以导出镜像在各平台移植使用,所以选择用docker安装,并做详细记录,为以后需要之时拿来再看。1、安装docker环境。2、开始拉取oracle镜像 docker pull registry.c.....转载 2022-04-06 17:56:53 · 81524 阅读 · 33 评论 -
Sparksession,sparkcontext,sparksql,SparkConf是什么,他们之间什么联系?
目录一.先从SparkContext和SparkConf开始:1.SparkContext 是什么?2、创建SparkContext的步骤:3、SparkConf二、SQLContext和HiveContext1.SQLContext 是什么?2.HiveContext 是什么?三、SparkSession其实对初学spark的同学来说,Sparksession,sparkcontext,sparksql,SparkConf看着都特别像,搞着搞着就混了,而且每次创...原创 2022-04-02 16:46:28 · 2934 阅读 · 0 评论