大数据
文章平均质量分 94
向、向向日葵
这个作者很懒,什么都没留下…
展开
-
Spark 之 SparkSQL
SparkSQL前言Spark 知识系列文章一、SparkSQL 概述1.1 DataFrame1.2 DataSet1.3 RDD、DataFrame和DataSet三者的关系二、SparkSQL的编程2.1 DataFrame2.1.1 通过Spark的数据源进行创建2.1.2 RDD转换为DataFrame2.1.2.1 手动转换2.1.2.2 通过样例类2.1.3 将DataFrame转化为RDD2.2 DataSet2.2.1 通过样例类创建2.2.2 RDD转换为DataSet2.2.3 Dat原创 2021-12-02 23:26:25 · 1016 阅读 · 0 评论 -
Spark 之Spark三大数据结构
Spark前言Spark 知识系列文章一、RDD弹性分布式数据集1.1 RDD定义以及框架1.2 特点1.3 创建RDD1.4 算子1.5 RDD依赖关系1.5.1 窄依赖1.5.2 宽依赖1.6 RDD任务划分1.7 RDD数据分区器1.7.1 Hash分区1.7.2 Ranger分区(很少使用)二、 累加器2.1 运用累加器求数据之和三、 广播变量:分布式只读共享变量 - 调优策略总结前言本文介绍有关Spark的三大数据结构:RDD、广播变量、累加器。Spark 知识系列文章 此处罗原创 2021-12-02 23:25:50 · 1783 阅读 · 1 评论 -
Spark 之 RDD转换算子
RDD转换算子前言Spark 知识系列文章一、RDD的转换算子1.1 Value类型1.1.1 map(func)案例1.1.2 mapPartitions(func) 案例1.1.3 Map 和 MapPartition的区别1.1.4 flatMap(func) 案例1.1.5 glom案例1.1.6 groupBy(func)案例1.1.7 sample(withReplacement, fraction, seed) 案例1.1.8 distinct([numTasks])) 案例1.1.9 coa原创 2021-12-02 23:25:33 · 744 阅读 · 0 评论 -
Spark 之 RDD行动算子
RDD行动算子前言Spark 知识系列文章一、 RDD行动算子1.1 reduce(func)案例1.2 collect()案例1.3 count()案例1.4 first()案例1.5 take(n)案例1.6 takeOrdered(n)案例1.7 aggregate案例1.8 fold(num)(func)案例1.9 saveAsTextFile(path)1.10 saveAsSequenceFile(path)1.11 saveAsObjectFile(path)1.12 countByKey(原创 2021-12-02 23:25:15 · 1553 阅读 · 0 评论 -
Spark 之 Spark框架及部署
Spark(一)前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimp原创 2021-12-02 23:24:57 · 948 阅读 · 0 评论 -
Spark 之 SparkStreaming
SparkStreaming前言Spark 知识系列文章一、Spark Streaming1.1 Spark Streaming 架构1.2 DStream 入门案例(Wordcount)1.3 Dstream转换二、窗口函数总结前言本文介绍了有关SparkStreaming的相关知识,包括SparkStreaming架构、SparkStreaming实现WordCount案例、窗口函数等。Spark 知识系列文章 此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。原创 2021-12-02 23:24:33 · 965 阅读 · 0 评论 -
大数据之MapReduce
MapReduce前言一、MapTask工作机制1.1 MapTask处理流程二、ReduceTask 工作机制2.1 ReduceTask处理流程2.2 ReduceTask注意事项三、Shuffle机制3.1 Shuffle阶段的位置3.2 Shuffle处理流程四、MapReduce中的排序4.1 MapTask中的排序4.2 ReduceTask中的排序五、 Combiner总结前言 本文简单介绍大数据框架中的MapReduce,从MapTask工作机制、ReduceTask工作机制、Shu原创 2021-12-01 18:15:10 · 332 阅读 · 0 评论 -
大数据之Presto
Presto前言一、Presto概念二、Presto架构三、特点3.1 优点3.2 缺点四、注意事项总结前言本文简单介绍了大数据中Presto的相关知识,包括Presto的基本概念、架构、特点以及使用Presto的注意事项一、Presto概念 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品,也不能用来处理在线事务(OL原创 2021-11-23 15:07:54 · 2498 阅读 · 0 评论 -
大数据之Redis(上)
Redis(上)前言一、Redis为什么快二、BIO、NIO、AIO三、Redis数据类型3.1 key3.2 String3.3 List3.3.1 Redis List的特点3.3.2 相关操作3.4 Set3.5 Hash3.5.1 数据结构3.5.2 相关操作3.6 Zset总结前言Redis是基于内存的开源的key-value存储系统,本文主要介绍有关Redis的基本概念以及数据类型,在大数据之Redis(下)中介绍Redis事务、持久化、主从复制、哨兵机制以及集群的概念。一、Redis原创 2021-11-23 10:34:44 · 1560 阅读 · 0 评论 -
大数据之Redis(下)
Redis(下)前言一、Redis事务1.1 Redis事务的特点及作用1.2 Redis事务的错误处理二、Redis持久化2.1.RDB2.1.1 RDB定义2.1.2 RDB备份流程2.1.3 特点2.1.3.1 优点2.1.3.2 缺点2.2 AOF2.2.1 AOF定义2.2.2 AOF 同步频率设置2.2.3 AOF 重写2.2.4 AOF 特点2.2.4.1 优点2.2.4.2 缺点三、Redis主从复制3.1 定义3.2 作用3.3 相关问题3.4 复制原理3.5 主从从机制四、哨兵机制4.1原创 2021-11-23 10:34:19 · 1121 阅读 · 0 评论 -
大数据之Kafka(上)
Kafka(上)前言一、消息队列二、Kafka定义三、Kafka架构详解四、Kafka的特点4.1 Kafka的写入方式4.2 Kafka的零复制4.3 Kafka顺写日志、分段日志总结前言本文主要介绍Kafka的基本概念,包括:Kakfa的定义、Kafka的架构、Kafka的特点等。在 大数据之Kafka(下)中会介绍有关Kafka的数据生产、消费以及分区的相关知识。一、消息队列(1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息原创 2021-11-22 22:00:23 · 211 阅读 · 0 评论 -
大数据之Kafka(下)
Kafka(下)前言一、kafka生产数据的应答机制二、kafka生产数据三、kafka的数据消费3.1 kafka的数据消费3.2 kafka的再平衡四、kafka消费方式五、kafka中副本的数据存储机制六、kafka 分区6.1 分区原因6.2 分区选择原则6.3 分区消费策略6.3.1 Range 范围分区策略6.3.2 RoundRobin 分区策略总结前言在 大数据之Kafka(上)中介绍了Kafka的基本概念,包括:Kakfa的定义、Kafka的架构、Kafka的特点等。本文会介绍有关K原创 2021-11-22 22:00:00 · 287 阅读 · 0 评论 -
大数据之Flume
Flume前言一、Flume作用二、Flume架构2.1 Agent2.1.1 Source2.1.2 Channel2.1.3 Sink三、官方方法启动Flume四、Flume事务4.1 put事务4.2 take 事务五、单数据源发送到不同目的地六、Flume采集数据会丢失吗?总结前言Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。本文主要介绍Flume的相关知识一、Flume作用 实时读取服务器本地磁原创 2021-11-22 19:04:59 · 265 阅读 · 0 评论 -
大数据之Flink(下)
Flink(下)前言一、split 和 select 算子二、Connect和 CoMap 算子三、union 算子四、WordCount案例4.1 离线数据4.2 在线数据总结前言在 大数据之Flink(上)中我们介绍了Flink的特点、架构、两段式提交以及数据流等相关知识,本文介绍Flink独有的算子以及用Flink实现WordCount案例一、split 和 select 算子split算子根据某些特征把一个DataStream拆分成两个或者多个DataStream。Select算子原创 2021-11-22 17:04:54 · 251 阅读 · 0 评论 -
大数据之Flink (上)
文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport原创 2021-11-22 17:04:21 · 155 阅读 · 0 评论 -
大数据之ClickHouse(上)
ClickHouse(上)前言一、列式存储的优点二、ClickHouse瓶颈三、数据类型四、表引擎4.1 MergeTree4.1.1.分区4.1.2.主键4.1.3.order by(必选字段)4.1.4.TTL4.2 ReplacingMergeTree4.3 SummingMergeTree总结前言 本文介绍了大数据中使用的一种数据库ClickHouse,它不同于传统的mysql数据库,ClickHouse是列式存储数据库(DBMS),主要用于在线分析查询处理(OLAP),同样的HBASE也是原创 2021-11-22 15:29:42 · 801 阅读 · 0 评论 -
大数据之ClickHouse(下)
ClickHouse(下)前言一、SQL操作1.1 Update/delete(不建议使用)- 不支持事务1.2 GROUP BY 操作1.3 Alter 操作1.4 建立同表结构的表1.5 物化视图二、ClickHouse空值存储三、 数据一致性四、 ClickHouse的Join操作4.1 查询放大五、ClickHouse 注意事项总结前言 本文介绍了大数据中使用的一种数据库ClickHouse,详细介绍了ClickHouse中的SQL操作、语法指令以及相关配置等信息,如果想了解ClickHou原创 2021-11-22 15:28:51 · 1136 阅读 · 0 评论