一、结构化数据
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
数据来源:
- SQL数据库
- OLTP系统
- 电子表格
- 在线表单
- 传感器
- 网络和Web服务器日志
二、半结构化数据
半结构化数据具有一定的结构性,不能以二维表格结构存储在数据库中,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层
数据来源:
- XML等标记语言
- Binary文件
- TCP/IP数据包
- 压缩文件
- 数据集成
三、非结构化数据
非结构化数据不符合任何预定义的模型,不能以二维逻辑表来表现的数据
数据来源:
- Web页面
- 社交媒体
- 各种文件格式的图像(如JPEG、GIF和PNG)
- 视频和音频文件
- 文档和PDF文件
- PowerPoint演示文稿