数据采集流程

数据采集流程,就是数据采集开始时,首先是抽取数据,将数据从网页或业务处理系统中抽取数据,再经过数据清洗进行数据标准化、统一化的处理,以及数据迁移,最后存储数据。采集的数据类型可以是图片、音频、视频等文件以及附件,附件可以与正文自动关联,直到结束。数据采集流程,如图1-4所示。

采集:多领域范围

清洗:验证、拆分、过滤

存储:灵活、合理

1. 网络数据的采集流程

网络数据采集过程,一般都需要经过采集、清洗、存储三个步骤。

(1)采集数据

首先是本地服务器对起始的URL发送请求;其次是获取其返回的响应;第三是提取数据。提取数据,实质上就是解析网页。解析网页需要完成两个步骤,第一步骤就是提取网页上的链接;第二步骤就是提取网页上的资源。

(2)清洗数据

清洗数据是在采集数据后进行的一个操作,通过数据清洗,使得数据格式达到统一标准,即对数据的脏数据进行纠正、修改、去重等处理,目的是为了减少数据分析中存在的诸多问题,提高数据分析的准确性和效率。

(3)存储数据

网络数据采集后,要存储数据。也就是说获取的数据在经过数据清洗处理后,将数据存储起来,以便对数据进行进一步的分析、处理以及可视化等。

2. 日志数据的采集流程

在日志数据类型的数据采集过程中,ETL发挥了很重要的作用。

ETL是将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程,目的就是将企业中零乱、分散、标准不统一的数据进行整合,从而达到更好的分析效果,为企业决策提供分析依据。

日志数据采集的流程,同前面一样分为采集、清洗、存储三个步骤。

(1)采集数据

通过数据采集工具配置部署,完成采集。

(2)清洗数据

通过开源工具,配置来接收原始的日志数据并进行拆分、验证。

(3)存储数据

通过开源工具,将采集结果存入数据库或文件中。

  • 8
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值