6.1 数据采集和预处理
6.1.1 数据采集
数据采集又称数据收集,是指根据用户需要收集相关数据的过程
采集数据类型分类:
类型 |
描述 |
结构化数据 |
是以关系型数据库表管理的数据 |
半结构化数据 |
是指非关系模型的、有基本固定结构模式的数据 例如日志文件、XML文档、E-mail 等 |
非结构化数据 |
是指没有固定模式的数据 如所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等 |
采集数据类型方法:
方法 |
描述 |
传感器采集 |
是目前应用非常广泛的一种采集方式 |
系统日志采集 |
系统日志一般为流式数据,数据量非常庞大 |
网络采集 |
通过互联网公开采集接口或爬虫获取数据信息的方式 网络 |