大数据采集及预处理

学习内容:

 

1、大数据的数据采集是什么?数据采集的数据来源于哪?

大数据的数据采集是在确定用户目标的基础上,针对该范围内所有结构化、半结构化和非结构化的数据的采集,采集后对这些数据进行处理,从中分析和挖掘出有价值的信息。

大数据的三大主要来源为商业数据、互联网数据和物联网数据。

2、数据采集的技术方法分为哪些?

1、系统日志采集方法;

2、非结构化数据采集方法;

3、其他数据采集方法。

3、大数据的预处理的方法主要包括哪些?

1、数据清洗。对数据进行抽取、转换和集成加载。

2、数据集成。狭义上是指如何合并规整数据,广义上指数据的存储、移动、处理等与数据有关的活动。

3、数据变换。将数据转换成适合挖掘的形式。

4、数据规约。从数据库或数据仓库中选取并建立使用者感兴趣的数据集合,然后从数据中过滤掉一些无关、偏差或重复的数据。

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值