简介
数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。
一句话解释版本:
数据采集就是怎么获得原始数据,如果把数据采集看成吃饭,自己撸起袖子做饭就是用一手数据,点外卖就是用二手数据。
数据分析与挖掘体系位置
数据采集是数据挖掘的基础。数据挖掘如果是建房子,数据采集就是那些砖跟水泥等等基础材料。没有砖,拿什么盖房子,总不能用空气吧?所以,找砖、找水泥的工作就是数据采集。它是数据准备工作的第一步。
数据采集的工作中,包含着部分与样本的知识,但是那部分我们单独在“样本抽取”单元讲解。这里我们只说能够通过什么样的方法进行数据采集。因此,它在整个数据分析与挖掘体系中的位置如下图所示。
数据采集的理解
前面也说了,数据收集就是准备数据挖掘要用的那些数据。数据挖掘,没有数,哪来