大数据开发涉及到的关键技术有哪些?

大数据本身是一种现象而不是一种技术。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。

大数据价值的完整体现需要多种技术的协同。大数据关键技术涵盖数据存储、处理、应用等多方面的技术,根据大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等。

大数据采集技术

大数据采集技术是指通过 RFID 数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

因为数据源多种多样,数据量大,产生速度快,所以大数据采集技术也面临着许多技术挑战,必须保证数据采集的可靠性和高效性,还要避免重复数据。

大数据的数据源主要有运营数据库、社交网络和感知设备 3 大类。针对不同的数据源,所采用的数据采集方法也不相同。《大数据采集技术概述》教程中会对大数据采集技术做详细介绍。

大数据预处理技术

大数据预处理技术主要是指完成对已接收数据的辨析、抽取、清洗、填补、平滑、合并、规格化及检查一致性等操作。

因获取的数据可能具有多种结构和类型,数据抽取的主要目的是将这些复杂的数据转化为单一的或者便于处理的结构,以达到快速分析处理的目的。

通常数据预处理包含 3 个部分:数据清理、数据集成和变换及数据规约。

1)数据清理

数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在错误或偏离期望值的数据)和不一致数据处理。

  • 遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理。
  • 噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音。
  • 对于不一致数据则可进行手动更正。

2)数据集成

数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。

这一过程中需要着重解决 3 个问题:模式匹配、数据冗余、数据值冲突检测与处理。

由于来自多个数据集合的数据在命名上存在差异,因此等价的实体常具有不同的名称。对来自多个实体的不同数据进行匹配是处理数据集成的首要问题。

数据冗余可能来源于数据属性命名的不一致,可以利用皮尔逊积矩来衡量数值属性,对于离散数据可以利用卡方检验来检测两个属性之间的关联。

  • 9
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值