大数据_向、向向日葵的博客-CSDN博客

大数据

关注

文章平均质量分 94

关注数：文章数：17 文章阅读量：15626 文章收藏量：20

作者: 向、向向日葵

这个作者很懒，什么都没留下…

展开

Spark 之 SparkSQL

SparkSQL前言Spark 知识系列文章一、SparkSQL 概述1.1 DataFrame1.2 DataSet1.3 RDD、DataFrame和DataSet三者的关系二、SparkSQL的编程2.1 DataFrame2.1.1 通过Spark的数据源进行创建2.1.2 RDD转换为DataFrame2.1.2.1 手动转换2.1.2.2 通过样例类2.1.3 将DataFrame转化为RDD2.2 DataSet2.2.1 通过样例类创建2.2.2 RDD转换为DataSet2.2.3 Dat

原创 2021-12-02 23:26:25 · 1016 阅读 · 0 评论
Spark 之Spark三大数据结构

Spark前言Spark 知识系列文章一、RDD弹性分布式数据集1.1 RDD定义以及框架1.2 特点1.3 创建RDD1.4 算子1.5 RDD依赖关系1.5.1 窄依赖1.5.2 宽依赖1.6 RDD任务划分1.7 RDD数据分区器1.7.1 Hash分区1.7.2 Ranger分区（很少使用）二、累加器2.1 运用累加器求数据之和三、广播变量：分布式只读共享变量 - 调优策略总结前言本文介绍有关Spark的三大数据结构：RDD、广播变量、累加器。Spark 知识系列文章此处罗

原创 2021-12-02 23:25:50 · 1783 阅读 · 1 评论
Spark 之 RDD转换算子

RDD转换算子前言Spark 知识系列文章一、RDD的转换算子1.1 Value类型1.1.1 map(func)案例1.1.2 mapPartitions(func) 案例1.1.3 Map 和 MapPartition的区别1.1.4 flatMap(func) 案例1.1.5 glom案例1.1.6 groupBy(func)案例1.1.7 sample(withReplacement, fraction, seed) 案例1.1.8 distinct([numTasks])) 案例1.1.9 coa

原创 2021-12-02 23:25:33 · 744 阅读 · 0 评论
Spark 之 RDD行动算子

RDD行动算子前言Spark 知识系列文章一、 RDD行动算子1.1 reduce(func)案例1.2 collect()案例1.3 count()案例1.4 first()案例1.5 take(n)案例1.6 takeOrdered(n)案例1.7 aggregate案例1.8 fold(num)(func)案例1.9 saveAsTextFile(path)1.10 saveAsSequenceFile(path)1.11 saveAsObjectFile(path)1.12 countByKey(

原创 2021-12-02 23:25:15 · 1553 阅读 · 0 评论
Spark 之 Spark框架及部署

Spark（一）前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimp

原创 2021-12-02 23:24:57 · 948 阅读 · 0 评论
Spark 之 SparkStreaming

SparkStreaming前言Spark 知识系列文章一、Spark Streaming1.1 Spark Streaming 架构1.2 DStream 入门案例（Wordcount）1.3 Dstream转换二、窗口函数总结前言本文介绍了有关SparkStreaming的相关知识，包括SparkStreaming架构、SparkStreaming实现WordCount案例、窗口函数等。Spark 知识系列文章此处罗列了有关Spark相关知识的其他文章，有需要的可以进行点击查阅。

原创 2021-12-02 23:24:33 · 965 阅读 · 0 评论
大数据之MapReduce

MapReduce前言一、MapTask工作机制1.1 MapTask处理流程二、ReduceTask 工作机制2.1 ReduceTask处理流程2.2 ReduceTask注意事项三、Shuffle机制3.1 Shuffle阶段的位置3.2 Shuffle处理流程四、MapReduce中的排序4.1 MapTask中的排序4.2 ReduceTask中的排序五、 Combiner总结前言本文简单介绍大数据框架中的MapReduce，从MapTask工作机制、ReduceTask工作机制、Shu

原创 2021-12-01 18:15:10 · 332 阅读 · 0 评论
大数据之Presto

Presto前言一、Presto概念二、Presto架构三、特点3.1 优点3.2 缺点四、注意事项总结前言本文简单介绍了大数据中Presto的相关知识，包括Presto的基本概念、架构、特点以及使用Presto的注意事项一、Presto概念 Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。注意：虽然Presto可以解析SQL，但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品，也不能用来处理在线事务（OL

原创 2021-11-23 15:07:54 · 2498 阅读 · 0 评论
大数据之Redis（上）

Redis（上）前言一、Redis为什么快二、BIO、NIO、AIO三、Redis数据类型3.1 key3.2 String3.3 List3.3.1 Redis List的特点3.3.2 相关操作3.4 Set3.5 Hash3.5.1 数据结构3.5.2 相关操作3.6 Zset总结前言Redis是基于内存的开源的key-value存储系统，本文主要介绍有关Redis的基本概念以及数据类型，在大数据之Redis（下）中介绍Redis事务、持久化、主从复制、哨兵机制以及集群的概念。一、Redis

原创 2021-11-23 10:34:44 · 1560 阅读 · 0 评论
大数据之Redis（下）

Redis（下）前言一、Redis事务1.1 Redis事务的特点及作用1.2 Redis事务的错误处理二、Redis持久化2.1.RDB2.1.1 RDB定义2.1.2 RDB备份流程2.1.3 特点2.1.3.1 优点2.1.3.2 缺点2.2 AOF2.2.1 AOF定义2.2.2 AOF 同步频率设置2.2.3 AOF 重写2.2.4 AOF 特点2.2.4.1 优点2.2.4.2 缺点三、Redis主从复制3.1 定义3.2 作用3.3 相关问题3.4 复制原理3.5 主从从机制四、哨兵机制4.1

原创 2021-11-23 10:34:19 · 1121 阅读 · 0 评论
大数据之Kafka（上）

Kafka（上）前言一、消息队列二、Kafka定义三、Kafka架构详解四、Kafka的特点4.1 Kafka的写入方式4.2 Kafka的零复制4.3 Kafka顺写日志、分段日志总结前言本文主要介绍Kafka的基本概念，包括：Kakfa的定义、Kafka的架构、Kafka的特点等。在大数据之Kafka（下）中会介绍有关Kafka的数据生产、消费以及分区的相关知识。一、消息队列（1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）点对点模型通常是一个基于拉取或者轮询的消息

原创 2021-11-22 22:00:23 · 211 阅读 · 0 评论
大数据之Kafka（下）

Kafka（下）前言一、kafka生产数据的应答机制二、kafka生产数据三、kafka的数据消费3.1 kafka的数据消费3.2 kafka的再平衡四、kafka消费方式五、kafka中副本的数据存储机制六、kafka 分区6.1 分区原因6.2 分区选择原则6.3 分区消费策略6.3.1 Range 范围分区策略6.3.2 RoundRobin 分区策略总结前言在大数据之Kafka（上）中介绍了Kafka的基本概念，包括：Kakfa的定义、Kafka的架构、Kafka的特点等。本文会介绍有关K

原创 2021-11-22 22:00:00 · 287 阅读 · 0 评论
大数据之Flume

Flume前言一、Flume作用二、Flume架构2.1 Agent2.1.1 Source2.1.2 Channel2.1.3 Sink三、官方方法启动Flume四、Flume事务4.1 put事务4.2 take 事务五、单数据源发送到不同目的地六、Flume采集数据会丢失吗？总结前言Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。本文主要介绍Flume的相关知识一、Flume作用实时读取服务器本地磁

原创 2021-11-22 19:04:59 · 265 阅读 · 0 评论
大数据之Flink（下）

Flink（下）前言一、split 和 select 算子二、Connect和 CoMap 算子三、union 算子四、WordCount案例4.1 离线数据4.2 在线数据总结前言在大数据之Flink（上）中我们介绍了Flink的特点、架构、两段式提交以及数据流等相关知识，本文介绍Flink独有的算子以及用Flink实现WordCount案例一、split 和 select 算子split算子根据某些特征把一个DataStream拆分成两个或者多个DataStream。Select算子

原创 2021-11-22 17:04:54 · 251 阅读 · 0 评论
大数据之Flink (上)

文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport

原创 2021-11-22 17:04:21 · 155 阅读 · 0 评论
大数据之ClickHouse（上）

ClickHouse（上）前言一、列式存储的优点二、ClickHouse瓶颈三、数据类型四、表引擎4.1 MergeTree4.1.1.分区4.1.2.主键4.1.3.order by(必选字段)4.1.4.TTL4.2 ReplacingMergeTree4.3 SummingMergeTree总结前言本文介绍了大数据中使用的一种数据库ClickHouse，它不同于传统的mysql数据库，ClickHouse是列式存储数据库（DBMS），主要用于在线分析查询处理（OLAP），同样的HBASE也是

原创 2021-11-22 15:29:42 · 801 阅读 · 0 评论
大数据之ClickHouse（下）

ClickHouse（下）前言一、SQL操作1.1 Update/delete（不建议使用）- 不支持事务1.2 GROUP BY 操作1.3 Alter 操作1.4 建立同表结构的表1.5 物化视图二、ClickHouse空值存储三、数据一致性四、 ClickHouse的Join操作4.1 查询放大五、ClickHouse 注意事项总结前言本文介绍了大数据中使用的一种数据库ClickHouse，详细介绍了ClickHouse中的SQL操作、语法指令以及相关配置等信息，如果想了解ClickHou

原创 2021-11-22 15:28:51 · 1136 阅读 · 0 评论

大数据

作者: 向、向向日葵

Spark 之 SparkSQL

Spark 之Spark三大数据结构

Spark 之 RDD转换算子

Spark 之 RDD行动算子

Spark 之 Spark框架及部署

Spark 之 SparkStreaming

大数据之MapReduce

大数据之Presto

大数据之Redis（上）

大数据之Redis（下）

大数据之Kafka（上）

大数据之Kafka（下）

大数据之Flume

大数据之Flink（下）

大数据之Flink (上)

大数据之ClickHouse（上）

大数据之ClickHouse（下）