3.1数据采集(一) - 数据采集的步骤与方法

简介

数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。

一句话解释版本:

数据采集就是怎么获得原始数据,如果把数据采集看成吃饭,自己撸起袖子做饭就是用一手数据,点外卖就是用二手数据。


数据分析与挖掘体系位置

数据采集是数据挖掘的基础。数据挖掘如果是建房子,数据采集就是那些砖跟水泥等等基础材料。没有砖,拿什么盖房子,总不能用空气吧?所以,找砖、找水泥的工作就是数据采集。它是数据准备工作的第一步。

数据采集的工作中,包含着部分与样本的知识,但是那部分我们单独在“样本抽取”单元讲解。这里我们只说能够通过什么样的方法进行数据采集。因此,它在整个数据分析与挖掘体系中的位置如下图所示。


数据采集的理解

前面也说了,数据收集就是准备数据挖掘要用的那些数据。数据挖掘,没有数,哪来的挖掘呢?

但是我们肯定会说:世界上有那么多的数据,我怎么知道自己要用的数据能不能拿到?怎么拿到?有什么方法拿到?

数据收集的理论其实就是提供了一个方法论,或者说一个框架,它就是告诉你:有这些这些方法能够在你不知道数据中怎么来的时候帮到你。你不是不知道数据从哪里来吗?我告诉你,有这么多的方法都能帮你拿到数据。

唯一一个需要注意的地方就是:

数据收集可以告诉你:我怎么样才能拿到数据。

但是,不能告诉你:你拿到的数据合不合适;他也不能告诉你:你需要什么样的数据。

要解决后两个问题,你需要进行完善的项目调研,并且明确项目的需求。这些,靠的是你对业务以及模型的理解,而并非是方法论。

数据采集的方法

数据收集的方法可以分成两类:

  1. 直接来源:一手数据
  2. 间接来源:二手数据

就像前面说的,一手资源就是拿着炒勺锅子自己做饭。二手资源则是点个外卖,吃别人做好的饭。

我们下面分别讲解一下如何用这两种方法吃饱饭。


直接来源:一手数据

一手数据的正式版定义是:通过研究者实施的调查或实验活动获得的数据。

所以,要想获得一手数据,有两种方法:调查 或 实验。

调查

通过调查得到的一手数据叫做调查数据。调查数据是针对社会现象的。比如说,调查现在的经济形势、人的心理现象、工厂效率等等。

调查的形式

调查的形式分为两类:

  • 普查
  • 抽样

普查是要对一个总体内部的所有个体进行调查,国家进行的人口普查就是最典型的普查形式。普查的结果是最贴近总体的真实表现的,是无偏见(Unbias)的估测。但是普查的成本太大,少有项目采用这种方式。

抽样则在生活中被应用的更加广泛。由于数据分析挖掘涉及的总体数据量一般很大,如果要做普查,没有大规模的时间与金钱是几乎不可能的。所以,我们会从总体中抽取部分有代表性的个体调查,并用这部分个体的数据去反映整体,这就是抽样。

调查的方法

不管是用普查还是抽样的方法,数据采集都习惯用下面三种方式之一:

  • 自填式:填写调查问卷(电子/书面)。
  • 面访式:面对面采访。
  • 电话式:电话联络。

具体的设计问卷的方法、面访的技巧或者电话的提问设计都在后面慢慢讲解。这里只是概括性的介绍方法。


实验

通过实验得到的一手数据叫做实验数据。调查数据是针对自然现象的。比如说,植物背光生长的快慢、小白鼠对食物的记忆规律等等。

实验的方法

实验方法需要研究者真正设计实验,并记录结果、整合为数据,服务于后期的数据分析与挖掘工作。

实验的设计需要满足一个大原则:有实验组与对照组。实验组是只有要研究的变量发生变化的组;对照组是保持变量不变的组。这样,通过控制变量的方法,能得到观测数据。


间接来源:二手数据

二手数据的正式版定义是:数据原本已经存在,是由别人收集的,使用者通过重新加工或整理得到的数据。

所以,要想获得二手数据,有两种方法:系统内部采集 或 系统外部采集。

系统内部采集

系统内部采集数据是我在工作中最常见的数据采集方法。要进行数据分析的公司肯定会有自己的数据,这些数据一般会保存在数据库中,我有过接触的数据库例如Oracle与Teradata。在数据仓库中,会保存公司内部的生产数据,他们就是将公司的业务、渠道、成本、收益等生产过程数字化并固定存放在机器中。数据挖掘师可以通过SQL语言提取想要的数据表,并进行数据的收集。

系统内部数据一般都与企业的生产相关,涉及到用户信息的保密与商业机密等问题。所以一般都是有项目或者有研究课题的时候才能够获取。


系统外部采集

系统外部采集的数据是更加宏观、更加公开的数据。这些数据大部分不是针对某一家公司自己的运营与生产情况,而是更加偏重于社会的外部环境以及行业的经济形势。

下面这些都是系统外部采集的常用渠道:

  • 统计部门或政府的公开资料、统计年鉴
  • 调查机构、行会、经济信息中心发布的数据情报
  • 专业期刊
  • 图书
  • 博览会
  • 互联网

系统外部采集数据的源头众多,采集方法也有很多,手工处理excel或者网络爬虫都是可选的方法。

  • 7
    点赞
  • 66
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: understand-3.1.670-linux-64bit.tgz是一个Linux 64位操作系统下的软件包。"understand"是一个软件的名称,版本号为3.1.670,适用于Linux操作系统。这个软件包最有可能是一种源代码分析工具,它可以帮助开发人员深入理解和分析源代码。 这个软件包的文件格式为.tgz,这是一种常见的压缩格式,在Linux通常使用tar命令来解压。解压后可能会得到一个文件夹,里面包含了安装或执行此软件所需的所有文件和文档。 通过使用understand-3.1.670-linux-64bit.tgz,开发人员可以将源代码导入该软件,然后进行静态分析、动态查询和可视化展示。它可以生成各种图表、报告和度量,帮助开发人员更好地了解代码的结构、依赖关系、复杂度和性能等因素。 此外,这个软件包还可能包含有关如何安装和使用该软件的文档或说明。用户可以根据说明书按照特定的步骤来安装和配置这个软件,并参考文档来了解如何使用软件的各种功能。 总之,understand-3.1.670-linux-64bit.tgz是一个用于Linux 64位操作系统的软件包,提供源代码分析工具,帮助开发人员深入理解代码并生成各种相关报告和度量。 ### 回答2: understand-3.1.670-linux-64bit.tgz 是一个在Linux操作系统上运行的软件包。该软件被称为"Understand",它是一种软件理解工具,用于分析和可视化复杂的软件系统。它提供了一套强大的功能,可以帮助开发人员和工程师更好地理解和管理他们的代码。 该软件包是针对Linux 64位操作系统的,意味着它适用于64位架构的计算机。tgz代表tar gzip,它是将文件和文件夹打包成一个压缩文件的格式,可以有效地减小文件大小。 要使用该软件包,首先需要将文件解压缩。可以使用tar和gzip命令来完成这个任务。解压缩后,你将获得一个可执行文件或一个目录。只需运行可执行文件或进入目录,就可以开始使用Understand软件了。 Understand软件具有直观的用户界面,支持多种编程语言,包括C/C++、Java、Python等。它可以生成各种有用的图表和报告,帮助用户更好地了解代码的结构、依赖关系和性能。此外,它还提供了搜索功能,使用户能够快速定位和跳转到特定的代码部分。 使用Understand软件,可以帮助开发人员更好地管理和改进他们的代码质量。它可以帮助识别代码的潜在问题,提供一些优化建议,并支持代码重构。此外,它还提供了一些代码度量功能,帮助开发人员评估代码的复杂性和可维护性。 总而言之,understand-3.1.670-linux-64bit.tgz 是一个用于在Linux上进行代码分析和理解的软件包。它提供了一套强大的功能,帮助开发人员更好地了解和管理他们的代码,并改进代码质量。 ### 回答3: understand-3.1.670-linux-64bit.tgz 是一个压缩文件,其包含了一个在 Linux 64位系统上运行的名为 "Understand" 的软件。 "Understand" 是一款静态代码分析工具,主要用于帮助开发人员深入了解和分析复杂的软件源代码。它提供了强大的功能,可以对源代码进行快速导入、管理、分析和可视化。 该软件适用于 Linux 64位操作系统,并且以 tgz 压缩格式打包。用户可以通过解压缩文件并在 Linux 64位系统上安装该软件来使用。 一旦安装完成,使用者可以打开 "Understand" 软件并导入所需的源代码项目,该软件将帮助用户对代码进行详细分析,并提供各种可视化工具来帮助理解代码结构和各个模块之间的关系。 总之,understand-3.1.670-linux-64bit.tgz 是一款适用于 Linux 64位系统的静态代码分析工具的安装包。通过使用该软件,用户可以更好地理解和分析复杂的软件源代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值