大数据概述学习

大数据概述

技术支撑:存储、计算、网络
大数据:大量化、快速化、多样化、价值密度低
科学范式:实验-理论-计算-数据
影响:全样而非抽样、效率而非精确、相关而非因果
应用:
在这里插入图片描述

核心技术:分布式存储、分布式处理
计算模式:批处理(MapReduce、spark)、流计算、(流数据的处理)、图计算、查询分析计算(Hive)
云计算:虚拟化、多用户,解决分布式存储、计算
在这里插入图片描述

物联网:
在这里插入图片描述

关键技术:识别、感知技术 ,继承云计算

大数据处理架构Hadoop

两大核心:HDFS + MapReduce
可靠性、高效性、高可扩展性、高容错性、成本低、可支持多种编程语言
在这里插入图片描述
在这里插入图片描述

Pig:也能提供SQL语言查询(轻量级)
Oozie:工作流管理系统
Sqoop:连接关系型数据库与Hadoop

分布式文件系统HDFS

实现目标:

兼容廉价的硬件设备
支持大数据集
强大的跨平台兼容性
实现流数据读写
支持简单的文件模型

局限性:

不适合低延迟数据访问
无法高效储存大量小文件
不支持多用户写入数据访问及任意修改文件

最核心概念::默认64MB
好处:支持大规模文件存储 、简化系统设计、比较适合数据备份

名称节点——HDFS集群的管家(数据目录)
数据节点——存储实际数据
元数据:文件是什么、分成多少块、怎么隐射、那个服务器上

在这里插入图片描述

FsImage:

文件的复制等级
块大小以及组成文件的块
修改和访问时间
访问权限
注:文件具体在哪分布是实时在内存中维护的
在这里插入图片描述

更新的放在EditLog
第二名称节点:名称节点的冷备份,对EditLog不断增大的处理

体系结构:
在这里插入图片描述

目录-文件-块

在这里插入图片描述

局限性:

命名空间限制:名称节点保存在内存
性能瓶颈
隔离问题
可用性

存储原理:
在这里插入图片描述每个数据块默认冗余保存3份
在这里插入图片描述
注:第二个副本放在不同机架,第3个跟第1个是相同机架、4.5.6块是随机放

提供API:知道数据节点的机架ID,判断哪个数据离自己最近

数据节点定时向名称节点发送心跳信息,HDPS可以跳转冗余数据副本的位置
数据读取时也会有校验码(判断是否出错)

读写过程:
在这里插入图片描述在这里插入图片描述
读数据:

在这里插入图片描述
先创建输入流,

写数据:
在这里插入图片描述
命令
在这里插入图片描述
Hadoop fs:
Is:显示指定文件的详细信息
Mkdir:创建相关文件夹
Cat:指定文件内容输出到标准输出
-cp 将本地文件复制到HDFS文件中
也有web查看文件

Ubuntu一般用ecplise实现

分布式数据库HBase

高可靠、高性能、面向列、可伸缩
可以用来存储非结构化和半结构化的松散数据
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
旧数据还在,通过时间戳区分新数据
四维元组确定

在这里插入图片描述

HBase功能组件:库函数(一般用于链接每个客户端)、Master服务器(管家作用:分区信息进行维护和管理、维护Region服务器列表、整个集群有哪些Region服务器在工作、对Region进行分配)、Region服务器(存储不同的Region)

不同的Region分配到不同的Region服务器上

META.表元数据的表
在这里插入图片描述
加速寻址、缓存位置信息——惰性机制解决缓存失效

分布式并行编程模型MapReduce

相关并行编程框架:MPI、OpenCL、CUDA
MapReduce:非共享式架构,拓展性好,适用于非实时性的批处理和数据密集型的应用
分而治之
理念:计算向数据靠拢
在这里插入图片描述
Map函数:
在这里插入图片描述
Reduce函数:
在这里插入图片描述
在这里插入图片描述
JobTracker:作业跟踪器,负责资源的监控和作业的调度
TaskTracker:任务调度器。执行具体的相关任务
以slot为单位调度资源(map slot、reduce slot)
在这里插入图片描述
Split分片-map任务
Shuffle:分区、排序、合并
在这里插入图片描述
在这里插入图片描述合并:减少数量,将两个(a,1)合并成(a,2)
在这里插入图片描述
归并:是生成value-list

数据仓库Hive

数据仓库:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策
在这里插入图片描述保留历史数据状态
Hive:构建在Hadoop上,HiveQL语言
采用批处理方式处理海量数据、提供一系列对数据进行提取、转换、加载(ETL)的工具

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述HiveHA:高可用性解决方案,解决不稳定
在这里插入图片描述
本身不做具体的数据处理与存储,是把SQL语句转换成相关的MapReduce作业
工作原理:
在这里插入图片描述
依赖底层,延迟较高
Impala:实时交互的新型查询系统

分布式框架Spark

流计算

图计算

数据可视化

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ava实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),可运行高分资源 Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值