1、定义不同
结构化数据:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
非结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
2、来源不同
结构化数据:结构化数据源来自 GPS 传感器、在线表单、网络日志、Web 服务器日志、OLTP 系统等。
非结构化数据:非结构化数据源包括电子邮件、文字处理文档、PDF 文件等。
3、形式不同
结构化数据:结构化数据由数字和值组成。
非结构化数据:非结构化数据由传感器、文本文件、音频和视频文件等组成。
4、模型不同
结构化数据:结构化数据具有预定义的数据模型,并且在放入数据存储(例如,写入时模式)之前被格式化为设定的数据结构。
非结构化数据:非结构化数据则以其本机格式存储,并且在使用之前不会进行处理(例如,读取时模式)。
5、存储不同
结构化数据:结构化数据以表格格式(例如,Excel 工作表或 SQL 数据库)存储,需要较少的存储空间。它可以存储在数据仓库中,这使其具有高度的可扩展性。
非结构化数据:非结构化数据存储为媒体文件或NoSQL数据库,这需要更多的空间。它可以存储在数据湖中,这使得它难以扩展。
6、使用不同
结构化数据:结构化数据用于机器学习(ML)并驱动其算法。
非结构化数据:非结构化数据用于自然语言处理(NLP)和文本挖掘。
结构化数据工具
OLAP:从统一、集中的数据存储执行高速、多维的数据分析。
SQLite:实现一个独立的、无服务器的、零配置的事务性关系数据库引擎。
MySQL:将数据嵌入到大规模部署的软件中,特别是任务关键型重负载生产系统。
后交语法:支持 SQL 和 JSON 查询以及高级编程语言(C/C+、Java、python等)。
非结构化数据工具
MongoDB:使用灵活的文档来处理跨平台应用程序和服务的数据。
DynamoDB:通过内置安全性、内存中缓存以及备份和还原,在任何规模下均可提供个位数的毫秒级性能。
Hadoop:使用简单的编程模型提供大型数据集的分布式处理,并且没有格式化要求。
Azure:支持敏捷的云计算,以便通过微软的数据中心创建和管理应用。
如果想学习更多数据产品课程,可点击:手把手教你做数据产品经理
此外,我建立了各大城市交流群,想入群的小伙伴可加微信:chanpin628 我拉你进群。
视频号推荐
关注微信公众号:产品刘 可领取大礼包一份。
··················END··················
今日报告:巨量算数&CTR 发布《2024巨量引擎教育行业研究报告》,下载报告去公众号:硬核刘大 后台回复“教育”,即可下载完整PDF文件。
申明:报告版权归 巨量算数&CTR 所有,此处仅限分享学习使用,如有侵权,请联系小编做删除处理。
RECOMMEND
推荐阅读
点击“阅读原文”
查看更多干货