大数据学习笔记__01

最新推荐文章于 2024-03-19 11:56:58 发布

qq_35041440

最新推荐文章于 2024-03-19 11:56:58 发布

阅读量1.9k

点赞数

文章标签： big data 学习 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35041440/article/details/123464500

版权

什么是大数据

无法在可承受时间范围内用常规软件巩固进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据是一个描述大量高速、复杂和可变数据的术语，需要先进的技术来实现信息的俘获、存储、分发、管理和分析。

大数据的特征

基本特征

Volume (体量)——数据的体量，根据体量来定义是否为大数据(离线数据、实时数据)

Velocity (速度)——数据生成(数据产生的依据)、分析(解析数据)、移动的速度(数据产生、传输)

Varie (数据格式种类)——种类越丰富，价值越高

Value (通过解析数据得到的结果)——数据解析成果

固有特征

Time-based (数据产生的时间)

Immutable(数据不可变)——数据产生后不可以逆，保证数据的真实性

数据结构

结构数据(Structurd Data)——table

半结构数据(Seml Structurd Data)——xml、json

非结构数据(Unstructurd Data)——图片、音频、日志等

分布式

并行——用更多机器同时做同一操作(同时运算)

并发——多人同时执行同一操作(同时请求)

传统的分布式计算——通过高配置的机器进行数据处理(单节点处理数据)

计算受cpu限制，能处理的数据量相对较小，对数据执行大量复杂的处理，几十年来主要的推动力是增加单台计算机的计算能力(提高机器的配置)，通常在计算时把数据复制到计算节点

新的分布式运算-Hadoop——根据多台普通服务器组合处理数据(并行运算)

分布式存储数据，多台服务器通过Hadoop连接成一台服务器，切割数据到计算节点，处理完数据结果汇总，反馈结果响应到客户端。数据分布式存储，不会被复制到计算节点，将程序分发到数据节点，可实现大量数据的处理，商业集成成本比较低(硬件服务器不需要高配置)，人工成本较高(数据开发工程师开发成本较高)，算法支持并行运算

Hadoop跟关系型数据库的区别

OLAP和OLTP的区别

联机分析处理（OLAP）的概念最早是由关系数据南之父E.F.Codd于1993年提出的，他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响，OLAP作为一类产品同联机事务处理(OLTP）明显区分开来。当今的数据处理大致可以分成两大类:联机事务处理0LTP(on-line transaction processing),联机分析处理OLAP(On-LineAnalytical Processing)。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。

OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果

大数据分析

数据分析是基于商业目的，有目的的进行收集、整理、加工和分析数据，提炼有价值信息的过程

4、Hadoop

YARN(资源调度器)——管理整个Hadoop系统的资源调度，比如cpu、内存等等， 2.新版本的Hadoop 把资源管理和任务调度集成到yarn(新分布式处理框架)

MAPREDUCE(数据处理引擎)——1.xHadoop版本负责处理业务逻辑，还要负责资源管理和任务调度，处理储存在hdfs上面的数据

HDFS(分布式数据储存系统)——跨越Hadoop集群中所有节点以进行数据储存的文件系统，链接本地节点上的文件系统，使它们成为一个大文件系统

ECOSYSTEM(生态圈)——

虚拟机网卡重启命令 service network restart

启动命令 start-all.sh

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据学习笔记__01

什么是大数据无法在可承受时间范围内用常规软件巩固进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是一个描述大量高速、复杂和可变数据的术语，需要先进的技术来实现信息的俘获、存储、分发、管理和分析。大数据的特征基本特征Volume (体量)——数据的体量，根据体量来定义是否为大数据(离线数据、实时数据)Velocity (速度)——数据生成(数据产生的依据)、分析(解析数据)、移动的速度(数据产生、传
复制链接

扫一扫

qq_35041440 CSDN认证博客专家 CSDN认证企业博客

码龄8年

1: 原创

136万+: 周排名

209万+: 总排名

1909: 访问

: 等级

16: 积分

2: 粉丝

0: 获赞

0: 评论

2: 收藏

私信

关注

热门文章

大数据学习笔记__01 1910

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。