大数据技术栈
文章平均质量分 51
大数据相关技术栈原理及教程。
郭建華
过人的才干源于过人的努力,丰富的生活源于丰富的想象!
展开
-
导入Flink隐式转换包
import org.apache.flink.api.scala._原创 2021-05-17 18:00:32 · 522 阅读 · 0 评论 -
(一)大数据学习引言——大数据概述
一、大数据的概念概念大数据是指:无法在现有的常规软件工具对其内容进行抓取、管理和处理的数据集合。特征Volume:数据量足够大Variety:数据的种类多样Velocity:数据的增长速度快Value:数据蕴藏价值大二、大数据的行业价值1. 分析用户的行为,建立数据模型, 并进行预测在用户行为分析方面,最典型的是美国沃尔玛公司将尿不湿和啤酒放在一起销售的策略...原创 2019-12-22 11:46:27 · 2501 阅读 · 0 评论 -
(二)数据采集——Flume
文章目录一、Flume概述1. 引言2. 数据源二、Flume架构1. 架构图2. 组件及其功能3. Flume运行流程4. Flume核心组件SourceChannelSink三、Flume安装1. 运行环境2. 安装步骤四、Flume使用入门1. 配置文件2. 启动Flume五、Flume和log4j集成1. 依赖2. 配置日志文件3. 配置flume配置文件4. 启动运行5. 查看结果六、多...原创 2019-12-22 16:55:15 · 1358 阅读 · 0 评论 -
(三)分布式协调服务——zookeeper
单机版zookeeper的安装。原创 2019-12-22 19:27:18 · 131 阅读 · 0 评论 -
(四)数据传输——kafka消息队列
Kafka的安装和原理介绍。原创 2019-12-22 19:14:31 · 1400 阅读 · 0 评论 -
(五)数据存储——HDFS
HDFS的原理和使用介绍。原创 2019-12-22 21:29:44 · 854 阅读 · 0 评论 -
(六)数据存储——HBase
HBase的使用和原理介绍。原创 2019-12-22 22:43:35 · 615 阅读 · 0 评论 -
(七)Hadoop 3.3.0学习——HDFS
Hadoop的基础——HDFS的基础学习。原创 2021-03-22 15:51:38 · 348 阅读 · 0 评论 -
(八)Hadoop 学习——MapReduce
Hadoop之MapReduce入门学习demo演示。原创 2021-03-31 18:49:12 · 197 阅读 · 0 评论 -
Scala学习(一)——基础、控制结构和函数
Scala基础学习,包括基础变量、控制结构和函数。原创 2020-08-29 23:58:37 · 678 阅读 · 0 评论 -
Scala学习(二)——类和对象、继承和特质、泛型
对Scala中的对象和特质进行学习。原创 2020-08-30 01:43:33 · 445 阅读 · 0 评论 -
Spark-3.1.1单机安装教程
Spark 3.1.1版本的单机版安装教程。原创 2021-05-04 05:26:46 · 2038 阅读 · 0 评论 -
单机Spark-单词计数Demo(Scala版)
利用scala语言,在单机Spark环境下进行单词计数的IDEA项目搭建和demo运行。原创 2021-05-05 03:22:50 · 682 阅读 · 1 评论 -
打包Spark应用在服务器上运行
Scala语言编写的Spark应用在服务器上的简要部署步骤。原创 2021-05-05 04:44:30 · 456 阅读 · 0 评论 -
SparkStream流处理入门
SparkStream流式处理单词统计。原创 2021-05-06 01:16:43 · 141 阅读 · 0 评论 -
Spark SQL入门案例
利用Spark SQL分析数据的几个入门案例demo。原创 2021-05-07 00:44:58 · 205 阅读 · 0 评论 -
Flink单词统计入门
一个简单的Flink单词统计入门案例。原创 2021-05-07 14:29:25 · 338 阅读 · 0 评论 -
Flink学习使用总结
Flink的基础使用总结,适合入门的程序员参考,以助于构建知识框架。原创 2020-01-02 21:28:20 · 246 阅读 · 0 评论 -
Azkaban使用总结
Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。下面我们先来看一下azkaban的安装和配置。安装&配置solo server modesolo server mode 使用的内嵌的H2 DB,所有的web server和executor server运行在一个相同的进程中,该种模式适合测试或者任务调度规模比较...原创 2019-12-21 23:00:57 · 1685 阅读 · 2 评论