大数据基础入门
文章平均质量分 95
以实战为线索,逐步入门大数据。
加贝力口贝
这个作者很懒,什么都没留下…
展开
-
01.大数据介绍以及环境配置
文章目录1.课前资料2.课程整体介绍3.大数据介绍什么是大数据?为什么要学习大数据?大数据相关技术海量数据存储海量数据清洗海量数据处理4.集群环境准备4.1准备虚拟机4.2修改为静态IP4.2.1配置文件4.2.2配置文件内容4.2.3重启网络4.2.4查看IP4.3mobaxTerm的使用4.4关闭防火墙4.5修改主机名4.6修改hosts文件4.7三台机器重启4.8设置免密登录4.8.1三台机器生成公钥与私钥4.8.2拷贝公钥到同一台机器4.8.3复制第一台机器的认证到其他机器4.8.4测试4.9三台机原创 2022-01-12 18:35:52 · 833 阅读 · 0 评论 -
02.分布式文件系统HDFS、MapReduce、Yarn介绍
文章目录1.分布式文件系统HDFS1.HDFS的来源2.HDFS的架构图之基础架构2.1 master/slave 架构2.2 名字空间(NameSpace)2.3 文件操作2.4副本机制2.5心跳机制2.6 一次写入,多次读出3.NameNode与Datanode的总结概述3.1namenode 元数据管理3.2 Datanode 数据存储4.文件副本机制以及block块存储5.元文件FSImage与edits6、HDFS的文件写入过程7、HDFS的文件读取过程8.HDFS基本Shell操作9.HDFS的原创 2022-01-12 18:38:26 · 768 阅读 · 0 评论 -
03.Hive简介及安装部署
文章目录1.Hive简介1.1什么是Hive1.2为什么使用Hive1.3Hive的特点1.4Hive架构图1.5Hive与Hadoop的关系1.6Hive与传统数据库对比2.HIVE的安装部署1.derby版hive直接使用1、解压hive2.修改目录名称3.初始化元数据库4.启动5.创建数据库6.创建表7.插入数据8.可能遇到的问题9.Hive启动报错Safe mode2.基于mysql管理元数据版hive1、解压hive2.修改目录名称3.检测服务器mysql数据库4.配置mysql允许外网访问5.退原创 2022-01-12 18:58:32 · 247 阅读 · 0 评论 -
04.Apache Flume
文章目录Apache Flume1. 概述2.运行机制1.1. 简单结构1.2. 复杂结构4. Flume安装部署5.flume初体验练习案例Source练习1.avro2.Spooldir3.采集目录到HDFS4.采集文件到HDFS开发shell脚本定时追加文件内容5.TailDir的使用集群部署案例练习多级扇入(fan-in)扇出(fanout)Apache Flume1. 概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把原创 2022-01-14 08:47:54 · 302 阅读 · 0 评论 -
05.日志接收处理
文章目录网站日志分析系统1.数据收集:JS埋点2.日志数据的提交方式3.在哪里发起Get请求?4.系统架构设计5. 运行jt-logserver5.1 Idea中打开项目5.2 查看tomcat插件配置5.3 启动5.4 测试5.5 关闭5.6 访问网页产生日志6.指标说明7.项目的整合网站日志分析系统1.数据收集:JS埋点传统埋点方式的缺点:直接嵌入业务系统,代码不好维护,影响业务系统性能。JS埋点优点:日志收集系统与业务系统相互独立,互不影响,不占用业务系统性原创 2022-01-14 08:54:50 · 73 阅读 · 0 评论 -
06.离线数据分析
文章目录Hive离线分析回顾业务流程准备搭建环境1.启动Hadoop2.修改flume配置文件3.启动flume4.启动jt-logserver5.测试准备数据离线数据处理Hive管理数据数据清洗数据处理PV:访问量UV:独立访客数SV:独立会话数BR:跳出率NewIP:新增IP数NewCust:新增访客数AvgTime:平均访问时长AvgDeep:平均访问深度分析结果表通过sqoop将数据导入mysql概念下载安装使用Echarts学习使用Hive离线分析回顾业务流程准备搭建环境1.启动Had原创 2022-01-14 08:58:27 · 842 阅读 · 0 评论 -
07-1.zookeeper
1.Zookeeper1.1、zookeeper介绍Zookeeper 是一个分布式协调服务的开源框架。 主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。 诸如: 统一命名服务(dubbo)、分布式配置管理(solr的配置集中管原创 2022-01-17 16:43:32 · 79 阅读 · 0 评论 -
07-2.hbase
文章目录1、HBase基本介绍HBase的发展历程2、HBase与Hadoop的关系2.1、HDFS2.2、HBase3、HBase特征简要1)海量存储2)列式存储3)极易扩展4)高并发5)稀疏4、HBase的基础架构1、HMaster2、RegionServer5、HBase的集群环境搭建5.1、下载对应的HBase的安装包5.2、压缩包上传并解压5.3、修改配置文件修改第一个配置文件hbase-env.sh修改第二个配置文件hbase-site.xml修改第三个配置文件regionservers创建ba原创 2022-01-17 17:11:17 · 198 阅读 · 0 评论 -
08.kafka
文章目录1、消息队列的介绍2、常用的消息队列介绍1、RabbitMQ2、ActiveMQ3、RocketMQ4、Kafka5、各种常用消息队列对比3、消息队列的应用场景4、kafka的基本介绍1、kafka的基本介绍2、kafka的好处3、分布式的发布与订阅系统4、kafka的主要应用场景指标分析日志聚合解决方法流式处理5、kafka架构内部细节剖析6、kafka主要组件说明1、kafka当中的producer说明2、kafka当中的topic说明3、kafka当中的partition说明4、kafka当中原创 2022-01-17 17:18:36 · 151 阅读 · 0 评论 -
09.scala
文章目录1.前言为什么要学习Scala学前寄语Scala简介Scala的诞生函数式编程Scala和java的关系Scala的特点Scala环境搭建SDK下载安装及测试2.IDEA插件安装3.第一个Scala工程4.Scala基础语法注释代码分隔变量和常量定义标识符关键字保留字方法和操作符5.Scala数据类型AnyVal值类型的转换自动类型转换强制类型转换值类型和String类型之间的相互转换6、运算符算数运算符赋值运算符关系运算符逻辑运算符位运算符7、流程控制顺序结构分支结构循环结构for循环while循原创 2022-01-17 17:27:51 · 722 阅读 · 0 评论 -
10.Flink01
文章目录1、Flink 简介1.1 Flink 的引入测试环境:Flink 和spark 的差异1.2 什么是Flink1.3 Flink 流处理特性1.4 Flink 基石1.5 批处理与流处理2、Flink 架构体系2.1 Flink 中的重要角⾊JobManager 处理器:TaskManager 处理器:2.2 无界数据流与有界数据流无界数据流:有界数据流:2.3 Flink 数据流编程模型2.4 Libraries 支持3、Flink 集群搭建3.1 standalone 集群环境3.1.1 准备原创 2022-01-19 11:40:01 · 224 阅读 · 0 评论 -
12.Flink03_DataStream API 开发
文章目录6、DataStream API 开发6.1 入门案例6.1.1 Flink 流处理程序的一般流程6.1.2 示例6.1.3 步骤6.1.4 参考代码6.2 输入数据集Data Sources6.2.1 Flink 在流处理上常见的Source6.2.2 基于集合的source6.2.3 基于文件的source(File-based-source)6.2.4 基于网络套接字的source(Socket-based-source)6.2.5 自定义的source(Custom-source)6.2.6原创 2022-01-19 11:56:24 · 1705 阅读 · 0 评论 -
11.Flink02
文章目录5.3 DateSet 的Transformation5.3.1 map 函数5.3.2 flatMap 函数5.3.3 mapPartition 函数5.3.4 filter 函数5.3.5 reduce 函数5.3.6 reduceGroup5.3.7 Aggregate5.3.8 minBy 和maxBy5.3.9 distinct 去重5.3.10 Join5.3.11 Union5.3.12 Rebalance5.3.13 分区5.3.13.1 partitionByHash5.3.13.原创 2022-01-19 11:47:43 · 145 阅读 · 0 评论 -
13.Flink04_Flink 的容错
文章目录6.8 Flink 的容错6.8.1 Checkpoint 介绍6.8.2 持久化存储6.8.2.1 MemStateBackend(默认)6.8.2.2 FsStateBackend(建议使用)6.8.2.3 RocksDBStateBackend6.8.2.4 语法6.8.2.5 修改State Backend 的两种方式6.8.3 Checkpoint 的高级选项6.8.4 Flink 的重启策略6.8.4.1 概览6.8.4.2 固定延迟重启策略(Fixed Delay Restart St原创 2022-01-20 10:33:11 · 143 阅读 · 0 评论 -
14.Flink05_Flink 的状态管理
文章目录6.9 Flink 的状态管理6.9.1 State-Keyed State6.9.2 State-Operator State6.10 Flink - End-to-End Exactly-Once 语义6.10.1 Kafka 来实现End-to-End Exactly-Once 语义7、flink-SQL 开发7.1 背景7.2 Flink SQL 常用算子7.2.1 SELECT7.2.2 WHERE7.2.3 DISTINCT7.2.4 GROUP BY7.2.5 UNION 和UNION原创 2022-01-20 10:36:21 · 223 阅读 · 0 评论