大数据特征及结构化数据和非结构化数据的对比等

文梁钰

于 2024-03-07 21:27:51 发布

阅读量843

点赞数 5

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2303_76536822/article/details/136546551

版权

一.大数据特征

1. 数据量大：大数据涉及的数据量通常非常大，可能达到TB、PB甚至EB等级别。这些数据需要进行数据分析处理。

2. 要求快速响应：市场变化快，对数据分析的速度和性能有较高要求，需要能及时快速地响应变化。

3. 数据多样性：大数据包括结构化、半结构化和非结构化数据，其中非结构化数据越来越成为数据的主要部分。这些数据需要进行清洗、整理和筛选等操作，转化为结构化数据。

4. 价值密度低：虽然数据量极大，但真正有价值的内容可能较少。如何从大量的数据中提取出关键且有价值的部分，并将信息转换成知识是值得研究的内容。

此外，大数据还有其他特征，如真实性（数据的质量）、复杂性（数据量巨大，来源多渠道）和价值（合理运用大数据，以低成本创造高价值）。

二.结构化数据与非结构化数据

1.结构化数据:简单来说就是数据库，基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。，比如企业ERP、财务系统；医疗HIS数据库；教育一卡通；政府行政审批；其他核心数据库等。

2.非结构化数据:非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。

三.hadoop生态圈

Hadoop生态圈是由一系列基于Hadoop开发的相关工具、库、应用程序、平台和服务组成的生态系统。它们都是用于大数据处理、分析和存储的技术，旨在解决大规模数据处理问题。

四.Hadoop hdfs架构

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。 HDFS是高容错性的，可以部署在低成本的硬件之上，HDFS提供高吞吐量地对应用程序数据访问，它适合大数据集的应用程序。

五.hdfs读的流程

1. 客户端通过调用FileSystem对象的open()来读取希望打开的文件。

2. Client向NameNode发起RPC请求，来确定请求文件block所在的位置。

3. NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block 副本的 DataNode 地址；这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序。

4. Client 选取排序靠前的 DataNode 来读取 block，如果客户端本身就是DataNode,那么将从本地直接获取数据(短路读取特性)。

5. 底层上本质是建立 Socket Stream（FSDataInputStream），重复的调用父类 DataInputStream 的 read 方法，直到这个块上的数据读取完毕。

6. 并行读取，若失败重新读取。

7. 当读完列表的 block 后，若文件读取还没有结束，客户端会继续向NameNode 获取下批的 block 列表。

8. 返回后续block列表。

9. 最终关闭读流，并将读取来所有的 block 会合并成一个完整的最终文件。

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据特征及结构化数据和非结构化数据的对比等

HDFS是高容错性的，可以部署在低成本的硬件之上，HDFS提供高吞吐量地对应用程序数据访问，它适合大数据集的应用程序。2.非结构化数据:非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。3. 数据多样性：大数据包括结构化、半结构化和非结构化数据，其中非结构化数据越来越成为数据的主要部分。此外，大数据还有其他特征，如真实性（数据的质量）、复杂性（数据量巨大，来源多渠道）和价值（合理运用大数据，以低成本创造高价值）。6. 并行读取，若失败重新读取。
复制链接

扫一扫

文梁钰 CSDN认证博客专家 CSDN认证企业博客

码龄1年

7: 原创

65万+: 周排名

11万+: 总排名

7231: 访问

: 等级

232: 积分

127: 粉丝

162: 获赞

4: 评论

154: 收藏

私信

关注

热门文章

最新评论

伪分布式hadoop
CSDN-Ada助手: 恭喜作者在博客领域不断发展，第7篇文章“伪分布式hadoop”内容丰富，对于hadoop的伪分布式部署进行了深入探讨。希望作者在未来的创作中，可以继续保持对技术的热情和深入探索，或许可以考虑对hadoop的优化配置或应用案例进行更深入的研究，为读者带来更多的价值和启发。期待看到更多优质内容，加油！
hadoop
CSDN-Ada助手: 恭喜您写了第6篇博客！看到您对hadoop的研究和分享，我感到非常欣慰。希望您能继续坚持创作，不断提升自己的写作水平和思考深度。或许下一步可以探讨hadoop在大数据处理中的应用案例，或者深入分析hadoop与其他大数据处理技术的比较。期待您的更多精彩分享！愿您在写作的路上越走越远，越写越好！
配置永久ip和临时ip 配置yum仓库
CSDN-Ada助手: 恭喜用户写下了第四篇博客！配置永久ip和临时ip以及配置yum仓库是非常实用的技能，对于系统管理和软件安装都有很大帮助。希望您能继续坚持写作，分享更多有用的技术经验。下一步建议可以考虑写一些关于网络安全或者系统优化的内容，相信会受到读者的欢迎。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
【无标题】linux练习
CSDN-Ada助手: 恭喜用户在Linux练习上的持续努力和创作！建议下一步可以尝试深入探索Linux系统的更多功能和应用，或者分享一些Linux使用中的技巧和经验，让更多人受益。希望您能继续保持创作的热情，不断进步！祝您越来越好！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
spark相关知识
CSDN-Ada助手: 非常感谢您分享这篇关于spark相关知识的博客！您对Kafka和Flume的介绍让我对这两个工具有了更深入的了解。除了这些内容，您可能还想了解一下Spark Streaming，它是Spark提供的一种实时处理框架，可以让您实时处理数据流。另外，如果您对数据可视化感兴趣，可以学习一下使用Spark和其它工具（如Tableau、Power BI等）进行数据可视化分析，这将有助于更好地理解和展示您处理的数据。期待您的下一篇博客，继续分享您的学习和经验！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。