大数据融合初理解

传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。在大数据时代下,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理整合后进行挖掘、分析。在这个过程中,数据融合就成为不可或缺的一步。

一、数据融合的价值

数据融合(data blending)与数据仓库(Data Warehouse)、数据一体化(Data Integration)不同。它的目的不是将一个企业(Enterprise)或组织的所有数据集中在一起并标准化而产生唯一的真相(SingleTruth)。它是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集(Analytic Dataset)。这个分析数据集是个独立的和灵活的实体,可随数据源的变化重组、调整和更新。数据融合胜于数据仓库和数据一体化的另一点是它能包容多源数据。

数据融合的另一个价值就是新规律新价值的发现。比如以前用户信用主要基于是否有历史借贷违约,但很多人无借贷关系数据,如何评定。芝麻信用就创新的融合上网数据、身份特征、行为偏好、社交关系等生活属性数据,来侧面刻画用户的信用,这就是数据融合价值。不同行业数据的融合,具有互补性和完整性,将有效提升数据内涵价值。

二、数据融和的现实需要

其中最重要原因是用户数据的割裂性,无法全面勾勒用户全貌。比如你的购物数据在京东天猫、通话数据在移动电信、交易数据在银行金融、社交数据在腾讯微信、搜索数据在百度等等。

数据的割裂性导致对用户的认识比较片面,可能做出错误的决策。比如:现在京东与头条的“京条计划”就是数据合作的一个案例,就是你在京东搜索的物品,会不定时在浏览今日头条中呈现,增加购买率。这里有个缺陷是如果已经在淘宝购买的物品,但还是会出现页面,导致用户体验感知下降。

三、 数据融合的三种方式

数据融合的方式从交互程度来讲,可分为数据组合、数据整合和数据聚合等三个层次,由低到高,逐步实现数据之间的深度交互。

(1)、数据组合由各方数据的简单组合形成,能够全貌客户用户特征。该数据的融合产生的是物理反应,数据属性本质没有改变。如一份征信报告,有交易数据,有通信数据,有购物数据等,简单的拼装而成。如下图:

(2)、数据整合由多方的数据共同存在才能够实现产品价值。该数据的融合产生的是化学反应,有价值产生。如:黑名单,通过金融数据和通信行业数据共同才能判断是否黑名单。如该用户有异常金融行为,在加上该用户频繁换手机和停机次数多,基本可判断黑名单用户。

(3)、数据聚合(核反应)由双方数据聚合孵化产生出新的产品,新模式。如:分期贷款。通过大数据风控能力,不仅减少审核流程,而且也能进行贷中监控和贷后管理,还能够对失联用户进行定位和催收。

三、数据融合面临的问题

数据融合是目前大数据应用和智能决策过程中一个瓶颈。此外数据融合并不是一件容易的事情,需要解决数据壁垒,数据标准,数据安全等一系列问题。其中较重要的三个问题是:

(1)、数据安全问题

如何保证数据安全,保护客户隐私、兼顾客户知情权?如何保障符合集团或公司规定的数据变现要求?等数据安全问题是数据融和实操过程中面临的首要问题。

(2)、利益分配

利益分成如何界定各方数据价值和分层比例?多方数据提供者,听谁的话?等利益问题在数据融和、变现时也成了众口难调的一件事。

(3)、数据标准难统一

信息化时代的今天,数据来源多样化,取数标准难界定,对于数据融和时统一标准、科学进行数据挖掘、分析会产生阻碍。

在大数据时代下,数据融合显得非常重要,数据融和是有效整合数据资源、分析挖掘数据价值最直接有效的方式,因此在进行数据融和时也应规避和解决其他问题和不安全因素。

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值