![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 95
大数据相关技术使用
ha_lydms
不要在同一个坑里摔倒两次。
展开
-
HBase整合Phoenix
1)官网地址:http://phoenix.apache.org/Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。优点:使用简单,直接能写sql。缺点:效率没有自己设计rowKey再使用API高,性能较差。原创 2023-12-03 19:58:19 · 11150 阅读 · 41 评论 -
一篇文章完成Hbase入门
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。原创 2023-11-25 15:32:17 · 11337 阅读 · 19 评论 -
Hive函数
窗口函数不同于我们熟悉的常规函数及聚合函数,它输入多行数据(一个窗口),为每行数据进行一次计算,返回一个值。灵活运用窗口函数可以解决很多复杂的问题,如去重、排名、同比及和环比、连续登录等。**内置函数:**Hive自带的函数。**自定义函数:**当Hive提供的内置函数无法满足你的业务处理需要时。可以自己定义一些函数。: 一进一出。:聚合函数,多进一出,类似:count/max/min:炸裂函数,一进多出,如:explode()Hive不会强制要求将数据转换成特定的格式才能使用。原创 2023-11-18 20:38:09 · 8803 阅读 · 19 评论 -
看完就会的Flink基础API
执行环境、数据源(source)、转换操作(transformation)、输出(sink)四大部分getExecutionEnvironment( )最简单的方式,就是直接调用 getExecutionEnvironment 方法。它会根据当前运行的上下文直接得到正确的结果:如果程序是独立运行的,就返回一个本地执行环境;如果是创建了 jar包,然后从命令行调用它并提交到集群执行,那么就返回集群的执行环境。也就是说,这个方法会根据当前运行的方式,自行决定该返回什么样的运行环境。这种“智能”的方式不需要我们原创 2023-11-10 08:00:00 · 10174 阅读 · 8 评论 -
SparkSQL
一、概述二、Spark SQL编程三、SparkSQL数据加载和保存原创 2023-11-03 19:41:38 · 10772 阅读 · 8 评论 -
Spark-Core
一、RDD 编程二、累加器三、广播变量原创 2023-10-24 16:56:09 · 9639 阅读 · 11 评论 -
Spark简介
部署Spark集群大体上分为两种模式:单机模式与集群模式大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境。原创 2023-10-22 16:46:32 · 10965 阅读 · 28 评论 -
Yarn基础入门
那么在YARN中,我们用DRF来决定如何调度:假设集群一共有100 CPU和10T 内存,而应用A需要(2 CPU, 300GB),应用B需要(6 CPU,100GB)。则两个应用分别需要A(2%CPU, 3%内存)和B(6%CPU, 1%内存)的资源,这就意味着A是内存主导的, B是CPU主导的,针对这种情况,我们可以选择DRF策略对不同应用进行不同资源(CPU和内存)的一个不同比例的限制。但是很多时候我们资源有很多种,例如内存,CPU,网络带宽等,这样我们很难衡量两个应用应该分配的资源比例。原创 2023-10-13 20:53:34 · 11299 阅读 · 19 评论 -
HDFS最基础使用
Hadoop中核心的数据存储管理,HDFS的内容基础讲解入门。原创 2023-10-03 16:17:27 · 9527 阅读 · 14 评论 -
Scala最基础入门教程
Scala的最基础教程,学完以后,能胜任80%的开发场景,基本控制在2~3个小时阅读时间。原创 2023-09-29 00:00:00 · 11652 阅读 · 3 评论 -
Flume最简单使用
Flume最简单使用教程原创 2023-09-23 22:16:31 · 11075 阅读 · 3 评论 -
zookeeper最基础教程
官方地址:https://zookeeper.apache.org/Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。原创 2023-09-16 17:24:34 · 11307 阅读 · 9 评论 -
Yarn资源调度器
文章目录一、Yarn资源调度器1、架构2、Yarn工作机制3、HDFS、YARN、MR关系4、作业提交之HDFS&MapReduce二、Yarn调度器和调度算法1、先进先出调度器(FIFO)2、容量调度器(Capacity Scheduler)3、公平调度器(Fair Scheduler)3.1 调度器原理3.22 资源分配方式三、修改Yarn集群1、Yarn配置2、多队列提交3、向集群中提交任务一、Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布原创 2023-09-06 18:01:57 · 10414 阅读 · 7 评论 -
Spark-Core核心算子
Spark-Core中1、数据源获取。2、转换算子。3、行动算子原创 2023-09-03 18:55:35 · 10320 阅读 · 31 评论 -
大数据技术栈列表
Flink是一个开源的流式数据处理和批处理框架,旨在处理大规模的实时数据和离线数据。它提供了一个统一的系统,能够高效地处理连续的数据流,并具备容错性和低延迟的特点。Flink的设计目标是在一个系统中同时支持流式数据处理和批处理,以满足不同类型的数据处理需求。它的核心概念是有向无环图(DAG),通过将数据处理作业表示为一系列操作符和数据流的有向图,实现了灵活的数据处理流程。Flink支持各种数据源和数据接收器,包括消息队列(如Apache Kafka)、文件系统(如HDFS)、数据库和套接字等。原创 2023-06-30 23:20:42 · 2062 阅读 · 0 评论 -
Python最基础语法
3.7.3。原创 2023-06-30 00:20:58 · 10258 阅读 · 4 评论 -
Flink中时间和窗口
如图所示,在事件发生之后,生成的数据被收集起来,首先进入分布式消息队列,然后被 Flink 系统中的 Source 算子读取消费,进而向下游的转换算子(窗口算子)传递,最终由窗口算子进行计算处理。 有两个非常重要的时间点:一个是数据产生的时间,我们把它叫作“事件时间”(Event Time);另一个是数据真正被处理的时刻,叫作“处理时间”(Processing Time)。我们所定义的窗口操作,到底是以那种时间作为衡量标准,就是所谓的“时间语义”(Notions of Time)。原创 2023-06-28 22:28:52 · 10022 阅读 · 7 评论 -
Kafka最基础使用
这样可以明显减少系统资源的浪费,例如:之前consumer0、consumer1之前正在消费某几个分区,但由于rebalance发生,导致consumer0、consumer1需要重新消费之前正在处理的分区,导致不必要的系统开销。但是低级API,比较复杂,需要执行控制offset,连接到哪个分区,并找到分区的leader。按key分配策略,有可能会出现「数据倾斜」,例如:某个key包含了大量的数据,因为key值一样,所有所有的数据将都分配到一个分区中,造成该分区的消息数量远大于其他的分区。原创 2023-06-26 10:38:02 · 5265 阅读 · 4 评论 -
原生Jdbc获取库、表、字段
JDBC(Java Database Connectivity)是一个独立于特定数据库管理系统、通用的SQL数据库存取和操作的公共接口(一组API),定义了用来访问数据库的标准Java类库,()使用这些类库可以以一种标准的方法、方便地访问数据库资源。JDBC为访问不同的数据库提供了一种统一的途径,为开发者屏蔽了一些细节问题。JDBC的目标是使Java程序员使用JDBC可以连接任何提供了JDBC驱动程序。原创 2023-06-21 22:58:26 · 10930 阅读 · 3 评论 -
TiDB安装简介
官网地址TiDB可以理解为是MySQL的加强版/分布式MySQL/MySQLPlusTiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。原创 2023-05-25 23:00:49 · 11287 阅读 · 6 评论 -
Hadoop集群搭建
Hadoop官方网站:http://hadoop.apache.org/Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。完全分布式模式:多台服务器组成分布式环境。生产环境使用。原创 2023-02-09 22:00:00 · 20502 阅读 · 223 评论