作者:禅与计算机程序设计艺术
1.简介
20世纪末,互联网爆炸席卷全球,产生了海量的数据,而这些数据极大的激发了人们对数据分析的需求。为应对这个数据分析需求,网络安全专家、程序员和科学家们一起合作,开发出了各种基于机器学习的方法。当今,人工智能正成为企业解决复杂问题的核心驱动力,越来越多的企业也将其用于信息管理中,帮助他们更好地发现信息价值并对其进行加工整理。本文从收集、整理、存储、分析等四个方面综述了信息收集过程,并给出了最佳实践方案。
2.基本概念及术语介绍
数据收集分类
- 非结构化数据:指没有固定格式或标准的、易于被计算机处理的数据,如图像、视频、文本、音频、文档等;
- 结构化数据:指具备一定格式或标准的数据,可以由电脑直接读取,如表格、数据库中的记录、JSON、XML文件等;
- 半结构化数据:指不具有固定格式但很容易被计算机解析的数据,如HTML页面、PDF文档等;
- 海量数据:指特别庞大且难以存储、处理的数据集合,如社交媒体上的评论、新闻网站上的文章等;