![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BigData
飛翔的大雁
这个作者很懒,什么都没留下…
展开
-
kafka
Kafka一 .概述1. 背景2. 概念3. 架构和原理4. 使用场景二、Kafka搭建部署1. 安装的前期准备2. kafka的搭建三、Kafka的核心概念1. message 消息2. producer 生产者3. broker 代理节点,代理缓存4. topic5. partition6. Replication副本7. Consumer消费者8. Zookeeper原创 2019-11-03 12:06:34 · 835 阅读 · 3 评论 -
HBase
HBase一 .概述一 .概述原创 2019-10-30 13:47:39 · 1920 阅读 · 5 评论 -
spark Streaming
spark Streaming一 .概述1. Spark Streaming原理2. Spark Streaming作业流程3.Spark Streaming 与 Strom3.1 处理性能对比3.2 架构对比3.3 模型对比3.4 异同4. 数据流(离散数据流)4.1 DStream特点5 数据源6 Spark Streaming 读取外部数据6.1 原理6.2 步骤6.3 创建 Streami...原创 2019-10-26 11:11:44 · 1084 阅读 · 0 评论 -
hive on spark
hive on Spark一. 配置二. hive三种模式1、内嵌Derby方式2.Local方式3.Remote方式 (远程模式)三. spark sql 远程连接(thriftserver -- beeline)2 .spark-sql3.scala操作spark-SQL四 .spark on hive(HiveServer 2)1. HiveServer 22. beline3. Sp...原创 2019-10-15 18:39:57 · 7268 阅读 · 0 评论 -
hive
Hive 一 . hive1. 概述1.2. 组成架构(运行流程)1.3. 特点4. Hive和数据库的区别二、Hive的搭建2.1. 版本的选择2.2. 步骤2.3. 软件的基本操作2.3.1. 进入hive2.3.2. 操作2.3.3. 退出2.3.4. hive对本地文件数据进行表的映射操作2.3.5. 转移元数据的存储路径2.3.6. metastore的设置方式 :元数据2.3.7. 设...原创 2019-10-15 17:04:02 · 27445 阅读 · 15 评论 -
spark Sql
spark sql一.概述1 spark历史2 Spark-SQL 概述2.1 特点2.2 作用2.3 Spark SQL架构图3 Dataset演进历史3.1 RDD3.1.1 优点3.1.2 缺点3.2 DataFrame3.2.1 优点3.2.2 缺点3.2.3 核心特征3.3 Dataset3.3.1 区别3.3.2 特点4 SparkSQL API4.1创建SparkSession4.2...原创 2019-10-15 15:35:56 · 21926 阅读 · 5 评论 -
spark core 作业调度
图片一. 概念二.流程三. Spark运行架构具有以下特点一. 概念一个Application由一个Driver和若干个Job构成,一个Job由多个Stage构成,一个Stage由多个没有Shuffle关系的Task组成(多个RDD算子操作)stage:宽窄依赖划分当执行一个Application时,Driver会向集群管理器申请资源,启动Executor,并向Executor发送应...原创 2019-10-12 17:03:49 · 257 阅读 · 0 评论 -
shuffle过程详解(spark与mr)
spark-shuffle与MapReduce shuffleMR shuffle1、map端2、reduce端配置调优map端的调优属性:reduce端的调优属性spark shuffle一.定义二.演变三.Hash Shuffle V1有多少个reduce任务就会产生多少个中间文件(一个task--->所产生的文件数量=== reduce task数量)Hash Shuffle V1 过...原创 2019-10-12 16:42:21 · 1808 阅读 · 0 评论 -
Flume
Flume 总结参数配置详解概述Flume数据的传输过程SourcesNetCat SourceAvro SourceExec SourceSpooling Directory SourceTaildir SourceChannelsFile ChannelSinksLogger SinkHDFS SinkAvro SinkKafka Sink案例汇聚者 (collect.conf)收集者(pro...原创 2019-10-07 12:26:50 · 8034 阅读 · 2 评论 -
scala 详细
scalascala安装scala 使用方式函数的声明总结编译和执行getter和setter主辅构造器1.主构造器2.多辅构造器总结伴生与单例对象单例对象:伴生对象总结Apply和UpDateapplyupdate总结继承和特质(Trait=Java中的interface)继承--extends特质 trait函数式编程1、样例类案例2、模式匹配常量匹配类型匹配Array匹配模式匹配Option...原创 2019-10-08 08:17:13 · 391 阅读 · 0 评论 -
spark 安装部署与介绍
spark spark 概述一. spark和hadoop二. 应用常景和解决生态系统组件应用场景Spark执行任务流程图三. Spark安装四. Spark部署模式1、单机本地模式(Spark所有进程都运行在一台机器的JVM中)2、伪分布式模式 (在一台机器中模拟集群运行,相关的进程在同一台机器上)。3、分布式模式包括:Spark自带的 Standalone、Yarn、Mesos。3.1 ...原创 2019-10-09 09:45:59 · 8518 阅读 · 0 评论 -
Maven 安装配置
Mavenmaven1. maven的安装配置:1)下载maven2) 解压安装3) 配置环境量2.建立一个项目3.建立完成后4.书写项目(1) 写pom.xml (所要用的jar )(2) 编写项目5.导成jar包6. 原始导入jar 包maven1. maven的安装配置:1)下载mavenhttp://mirror.bit.edu.cn/apache/maven/maven-3/注...原创 2019-10-09 09:55:58 · 156 阅读 · 0 评论 -
RDD
RDD<1> 概述一. 什么是RDD二. spark 编程模型1. DataSource2. SparkContext3. Diver(1)SparkConf(2)SparkEnv(3)DAGScheduler(4)TaskScheduler(5)ScheduleBackend二. RDD属性RDD的五个特征包含四个函数和一个属性:1. 一组分片(Partition)分片2. 一个计算...原创 2019-10-10 11:38:29 · 13821 阅读 · 5 评论