![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习总结
文章平均质量分 94
愿逐月华!
这个作者很懒,什么都没留下…
展开
-
大数据学习相关内容总结
什么是大数据?传统的数据处理技术解决不了的数据量级,5v:准备大数据的环境hadoop:分布式存储和分布式计算的框架主要包括3个核心组件:1)hdfs:分布式存储2)mapreduce:分布式计算3)yarn:资源调度hadoop 的架构hdfs的架构namenode:主节点(名称节点),主要用于管理从节点,管理元数据。datanode:从节点(数据节点),主要用于存储数据secondarynamenode:辅助名称节点,辅助管理元数据(负责元数据的合并操作)y..原创 2022-03-19 21:50:17 · 1907 阅读 · 0 评论 -
day09 ----- Kafka
实时数据处理没有主从,通过zookepper 完成协调原创 2022-03-12 11:05:45 · 2575 阅读 · 0 评论 -
day11&12 ---- Flink
学习链接Flink简介批,流一体化的框架批:离线处理流:实时处理tar-xvzf-x 从档案文件中释放文件。-v 详细报告tar处理的文件信息。如无此选项,tar不报告文件信息。-z 用gzip来压缩/解压缩文件,加上该选项后可以将档案文件进行压缩,但还原时也一定要使用该选项进行解压缩。-f 使用档案文件或设备,这个选项通常是必选的。集群搭建上传解压上传Flink 压缩包到指定目录解压缩flink 到/opt/servers 目录cd /opt/原创 2022-03-11 17:42:51 · 1908 阅读 · 0 评论 -
day10 --- scala
面向对象和函数式编程混合在一起的简洁的高级语言运行到 jvmscala-lang.orgscala 安装原创 2022-03-10 14:55:49 · 201 阅读 · 0 评论 -
day08 ---- Hbase 操作,进一步了解HBase结构
Storememstore 128m 满了 刷盘storefile 是对HFile 的上层封装HFile 真正存储的文件为什么order数据就在01节点HBase shell操作1、进入HBase客户端命令操作界面$ bin/hbase shell2、查看帮助命令hbase(main):001:0> help3、查看当前数据库中有哪些表listhbase(main):002:0> list4、创建一张表创建user表,包含info、data两个列族hbase(.原创 2022-03-08 10:59:24 · 453 阅读 · 0 评论 -
day07 ---- Zookeeper,HBase
https://zookeeper.apache.org/Zookeeper 是一个分布式协调服务的开源框架。 主要用来解决分布式集群中应用系统的一致性问题。例如怎样避免同时操作同一数据造成脏读的问题。leader:follwer:Leader:Zookeeper 集群工作的核心事务请求(写操作) 的唯一调度和处理者,保证集群事务处理的顺序性;集群内部各个服务器的调度者。对于 create, setData, delete 等有写操作的请求,则需要统一转发给leader 处理, leade原创 2022-03-03 23:54:14 · 466 阅读 · 0 评论 -
day 05 & day06 --- 日志接收处理,离线数据分析,dbvis的安装
2.日志数据的提交方式Get请求:https://www.jd.com/?cu=true&utm_source=baidu-pinzhuan&utm_medium=cpc&utm_campaign=t_288551095_baidupinzhuan&utm_term=0f3d30c8dba7459bb52f2eb5eba8ac7d_0_bd79f916377147b6aef8164d97d9abac3.在哪里发起Get请求?跨域请求img标签中src实现跨域访问,将.原创 2022-03-03 12:02:08 · 365 阅读 · 0 评论 -
day04 ---- Flume
1 Apache Flume日志收集https://flume.apache.org/1.1 概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel 管道),待数据真正到达目的地(sink 水槽,下沉点)后,flume在删除自己缓存的数据。Flume支持定制各类原创 2022-03-01 17:57:40 · 149 阅读 · 0 评论 -
day03 -- hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。没有集群, 单一节点OLAP和OLTP的区别Hive 的架构表的各种结构称为元数据Hive与Hadoop的关系Hive利用HDFS存储数据,利用MapReduce查询分析数据2 Hive 安装部署2.1 derby版hive直接使用超轻量级的数据库前提:Hive安装非常简单,解压之后即可直接运行,不需要太多配置,前提是要配置JAVA_HOME和HADOOP_HOM原创 2022-02-28 14:58:18 · 1058 阅读 · 0 评论 -
day02 --- hadoop
学习链接HDFS每个节点代表什么?namenode :主要用于管理从节点, 管理元数据datanode:从节点,用于存储数据secondarynamenode:辅助名称节点,辅助管理元数据HDFS主要概念block:块大小,数据按照块的方式存储的,默认的块大小时128mreplication:数据的副本,数据是冗余存储,默认副本数3心跳机制:datanode默认6s发送一次心跳,(从节点不停的向主节点发送心跳)元数据:描述数据的数据,比如文件的大小,名称,存储时间等元文件FS原创 2022-02-25 16:10:11 · 133 阅读 · 0 评论 -
day01 --- hadoop
学习链接hadoop数据量呈指数增长(硬盘容量不断提升),但是硬盘的访问速度并未与时俱进有非常大的提升什么是hadoopHadoop是Apache旗下一个开源框架,用来开发与运行分布式应用程序来处理海量数据(大型数据集),hadoop不是指一个具体的软件或者应用,它是一个编程模型(思想)来处理实际的问题,它提供了一些基础模块或软件为此框架做支撑2 集群环境准备2.1 准备虚拟机克隆或复制 三个虚拟机hadoop01、hadoop02、hadoop03均为NAT模式,其中hadoop01内存原创 2022-02-24 13:18:16 · 453 阅读 · 0 评论