2025年1月9日
一、学习目标
1.了解数据采集的基本流程和几种常见数据采集方法;
2.实操通过八爪鱼采集工具进行数据采集。
二、知识准备
数据是产生价值的原材料,也是进行数据分析的第一步。获取数据的方式是多种多样的,我们这里主要讲的是通过数据采集方式获取数据的过程。
(一)数据采集的相关概念
数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。
互联网时代,万维网成为大量信息的载体,通过网络爬虫获取相关数据是一种高效且可靠的数据采集方式。
(二)采集数据的流程
完整的采集数据流程可包括采集、存储和清洗三个环节。
1.采集
将整个HTML或者JS文件下载到本地,此时数据在文件中,文件可转换成文本这种可读的类型。
2.存储
存储数据一般将下载的文件或者文本整个存入数据库。
3.清洗
从文件或者文本中提取目标资料,并组织成表格形式,形成可供分析的原始资料。