大数据采集的几点问题的思考

4 篇文章 0 订阅
1 篇文章 0 订阅

最近去面试,遇到面试官提到了几个关于“数据采集”方面的问题。
一般大数据处理流程的共识是:

大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

其中,数据采集是第一步。有这么几个情况:
(1)日志类型的数据采集;
(2)接口类型的数据采集;
(3)爬虫数据采集;
(4)传感器数据采集等等。。

当然有别的分类,这里暂时凭个人理解做个分类。

数据结构,又分结构化,半结构化,非结构化。

遇到的常见问题有:
(1)数据有多个来源
(2)异构,混杂结构数据和非结构数据
(3)数据动态生成
(4)整合难

总称就是:多源异构动态大数据整合!这是数据采集会遇到的问题。这还真是一个很大的命题,值得一批学者去研究。

当然,现在也有一些技术能处理一部分问题。有一些数据采集平台,比如flume。笔者没有使用过这些工具,不能瞎说。只是,结合自己的一些经验,做一些思考,并记下来,为以后遇到此类问题做个参考。

未完待续。。

参考索引:
http://developer.51cto.com/art/201601/504888.htm
https://zhuanlan.zhihu.com/p/43988449

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值