【BDTC 2016】百度金融研发负责人沈抖:大数据助推普惠金融发展与创新

【CSDN现场报道】2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。

2016中国大数据技术大会首日全体会议中,百度金融研发负责人沈抖带来了名为“大数据助推普惠金融发展与创新 ”的主题演讲。期间, 沈抖表示大数据已经从用户画像、精准营销、风险管理、运营优化等各个方面支持银行、保险、证券的业务。并从百度目前对大数据需求较大的几个方面(安全防护、智能获客、大数据风控、以及量化投资)同与会者分享了百度最近的技术成果。沈抖表示,有了大数据的支持,百度希望做到千人千面,即根据客户的兴趣爱好、人生阶段、对生活品质的要求、消费水平等方面,为不同用户制定不同的营销方案。

图片描述

百度金融研发负责人 沈抖

以下为演讲实录

沈抖:

听了李老师的演讲非常受启发,我也给大家分享一点百度最近在做的事情《大数据时代下的普惠金融发展和创新》。

其实金融是跟我们关系非常密切的一个行业,在这里面既有银行、保险,也有证券等各种各样非常发达的金融服务。在这个相对传统的行业里,实际上现在已经在全方位地使用大数据技术,大数据已经从用户画像、精准营销、风险管理、运营优化等各个方面支持银行、保险、证券的业务。

正是因为金融机构对大数据以及科技能力的需求,才推动了整个金融科技的快速发展。这里有几个简单的关于金融科技投资增长的数字:2015年北美增长44%、欧洲增长120%、亚太地区增长300%,其中中国增长445%,达到20亿美元,接下来这个势头还会继续进行下去。

金融领域的投资覆盖面很广,这里举几个例子:智能客服、安全防护、智能获客、以及大数据风控。也就是说,在保证金融系统安全的情况下找到你服务的客户,做好风险控制,基本上这个生意就成了。

安全防护

首先是安全,我们想一个坏人他怎么搞一个系统,或者怎么去攻击一个正常的用户?大概是这几步:

  • 首先是APP的破解。在端上入侵,这时候必须做好端上的安全扫描。
  • 接下来可以做通信阶段的通信劫持,这时候我们就要做全链的hps加密。
  • 接下来他会想方设法(无论是撞库还是其他方式)来盗取用户的密码。
  • 最后一步如果偷帐号不成功,他可能会冒充你,也就是说盗取你的身份信息,这时候就要做好活体识别和生物特征的认证。

李博士说我们在传统机构的时候要诈骗,因为要面签,所以起码得活人过来拿着证件,柜员去比对,你就是身份证所代表的人。但是在互联网上做互联网金融就很难保证,这里面就存在活体识别身份认证的问题。要做好这个问题就需要大量的数据支持,没有大数据就很难做到这一点。现在每天产生100TB的数据来支持上面的决策,为了用户体验,整个决策时间还得控制在5毫秒之内。

具体讲一个例子看帐户保护的时候我们怎么做,实际上我们在看一个人的时候,是不是真人真身份,是不是人自己在操作,无非是这几个方面在判断,时间、空间、帐号、行为,把这四个维度综合起来,我们就有把握判断这个人是不是正常人,是不是真实的自己。有了这样一个支撑以后,我们再监控90亿以上的风控指标来判断。第一是每天前端大流量进出百度的网络60TB;接下来每天1500多万次的登陆,在登陆瞬间判断是不是真的你;最后还有实时保护,不管登录这一关有没有防住,在中间通讯过程中登陆状态进一步被劫持;接下来在整个网上的每一次行为都要被监测,看过程中是否被调包了,这里每天有300多亿次的拦截。

另外一个例子是手写签名,签名在日常生活中是非常有效的身份认证的方式,虽然签名是很平常的事,但是在移动设备上就变得很重要。因为在移动设备上,它就不只是一个形状,还反映了更多维度,这里举一个例子,一个同学的签名可以去中间采点,每个点上既有力度还有速度,每个人在签名的时候因为签名风格力度、速度都有变量,通过小波变换做分类,最终使得是不是这个人能有效的区分开来,这时候即使把签名授出来,一点一点瞄也能判断不是它,因为行笔速度和自然流畅度已经不一样了。

刚才讲安全简单举了两个例子,另外是智能获客和大数据风控,无论是现在的互联网金融还是传统的金融这都是最核心的两个能力,这两个能力很大程度上建立在用户画像的基础之上,我们能不能把一个用户很完整的描述出来,这里给了一个例子,四个维度看一个用户,在信贷场景下看的,首先用户有没有贷款意愿,想不想贷款,这时候很多人都收到骚扰短信问要不要贷款,在没有贷款需求的时候对营销人来讲也很痛苦。这时候我们要识别用户的贷款意愿,接下来就要看有没有欺诈意图,欺诈意图很容易去判断,当我们有了足够多的数据以后,如果看到同一个设备上有无数人在申请要贷款,这个设备肯定是有问题的,欺诈的可能性非常高。再一个看还款能力,他即使想贷款又不是欺诈,不代表以后一定会还钱,因为他有可能还不起钱,所以还款能力也得考察一下住房类型、收入水平是不是有多头借贷,是不是已经由逾期了。当然能还钱不代表他一定会还钱,还要有还款意愿的问题。

智能获客

总而言之有了这个以后再判断一个人跟他做生意就有底了。怎么做,首先从智能获客角度看,智能获客说白了是要找到有金融需求的人,无论是贷款也好、理财也好还是其他任何一个需求,我们都需要适当时间点把这个人找出来,要想做到这一点无非是几个事情:1、要有足够大的流量覆盖才有可能触达用户;2、必须对用户有深刻的了解;3、在合适的时机通过大流量触达用户。现在我们对用户做了9大类400多个细分维度全面看这个用户需求到底是什么,此时此刻需求是什么。接下来就可以在每天百亿的流量上面触达数十亿有金融需求的用户,无论他现在是在关注房产、备孕还是旅游,有需求我们就会很好的触达。

下面给一两个例子,看例子之前我们看完整的获客流程无非是5步:首先得找到潜在需求,接下来触到他并且转化它,接下来让用户价值在这个体系内不断提升,把他变成老客还得做好维护防止流失,每一步都可以用不同的手段解决,比如在潜客的时候要做到精准触达,新客要做好体验,接下来通过产品营销、交叉营销,换成老客户要维护这个客户防止流失。

这里面一个非常有趣的例子是这样,需求本身其实是有非常强的时效性的,所以很多时候在做用户画像的时候打很多标签,标签本身是随着用户行为变化能反映出来需求的变化,变化的时效性作用非常强,一方面我们要实时捕捉这种需求,无论通过搜索、LBS、网页浏览,说起来简单,但是处理起来每天几百T的数据需要相当强的工程能力,所以用D stream解决分钟级别的延迟。接下来做自动标注和分类,最后做智能的出价,通过展示广告、信息流触达用户。如果我们判断这个用户有一个借贷需求,如果在当天触达客户,它的转化率在8%,第二天再去触达它,转化率达到4%,减了一半。这个角度我们来看在用户真正诉求发生的时候有一个衰减。第二种可能在现在互联网金融这么普及、竞争如此激烈的情况下,很多时候并不是因为用户需求没有了,而是说它已经被其他金融机构给满足了,再去触达的时候转化率就低下来了,总而言之时效性是非常有意思的点在这里面。

我们在触达用户的时候除了实时抓住它以外,还要看获客成本,这时候就要动态的调整竞价机制,尤其是在搜索流量上做竞价投放的时候,需要不断的根据我们的目标、根据我们的ROI,根据当时竞价因子动态调整,这里面我们可以看出来在两个不同产品线上通过动态竞价可以持续提升用户的转化响应率。

还有一个很有趣的事情是做生意的时候才能感受到,在给用户传递信息的时候里面每一句话都会产生巨大的影响,这是我们有了大数据支持以后我们希望做到的千人千面,要看到他的兴趣爱好、人生阶段,考虑到整个客户的生命周期,生活品质的要求、消费水平的要求等等,可以把所有因素综合起来给用户送一个非常个性化的消息,在这里面我们简单从几个方面做了一些尝试,一是情感上的激励“我给了你一个什么样的产品,你是尊贵的客户,是独享还是怎么样”不同的描述对客户有不同的影响。接下来是召唤方面,是需要立即使用还是怎么样这些文字上的描述都会带来差别,我们做了几个维度调整之后可以看到整个效率80%多的提升。

还有在座很多位都曾经是受益者,随着现在O2O以及互联网金融慢慢理性,现在大额补贴是在缩减,但是补贴依然存在,所以获客里面另外一个就是补贴的成本,怎么智能的调节补贴,使得我们在一定预算情况下获得更多的新户或者让更多老户活跃起来。从数据上来看是非常简单的优化问题,就是一次运营成本、补贴成本,后面的图是转化,在这个价格下给这个用户这个产品下转化率到底是多高。有什么样的条件,首先转化率要保持一定的水平,要省钱,省到最后一分钱不出一个客户也得不到。其次有一定的转化率,补贴控制在一定的区限之内。有了这个优化之后这里面有很多需要预测的,包括CPI转化有多高,这样一个场景、这样一个价格、这样一个用户转化是什么样的,这会通过用户画像、消费能力、订单金额、接入设备、商品类别这些维度做判断。比如接入设备我们可以试着理解一下,一个安卓手机用户,你奖两块钱他也干,但是拿iphone7奖两块钱他还嫌麻烦。

底下是通过个性化的补贴使补贴效率有10%几的提升,补贴效率是同样效果的情况下能够激活多少用户。

刚才讲到获客举了几个不同的维度来看,接下来是大数据风控,风控刚才李博士提到了一些,这里是完整的计量模型的序列,其实有很多模型在整个过程发生,每个模型里面需要关注的变量也不完全一样,在申请阶段可能要关注搜索、贴吧后面关注消费、负债等等。

一般情况下一堆模型是怎么迭代的过程?首先左侧有大量的数据进来,无论是金融服务数据、社交数据、O2O、LBS的,通过数据的挖掘结合行业的洞察就会形成用户特征、企业特征,在这中间会尝试很多模型,这些模型现在已经基本上变成了标配,GBDT、DNN也好随着开源越来越多,这些已经变成了标配。根据这些模型无论对用户还是企业维度都可以很快形成结果,线上认证,认证以后再形成lop,这样使得风控模型不断优化。这个里面跟传统金融机构里面不太一样,一般金融机构里面风控模型会用相当长的周期更新它,倒不是能力不行,很多时候还是思维习惯的问题,他们希望这个模型有一定的稳定性,但是有了大数据的支持以后,整个模型可以迭代的更加迅速。

大数据风控

刚才提到一个还款能力的时候有一个点叫做多头借贷,这个人还不还得起钱,最初是能够还得起的,只不过这么多机构放款,拿到贷款的成本这么低没有控制力的人就会大把借钱,借新的钱还旧的债慢慢积累成了多头借贷,如果有个第三方机构已经长期积累了这样的数据就很容易做这个判断,数数就可以了。但是对于像百度、其他进入这个行业相对比较晚,手上大量数据的时候就不是简单数数的问题了,我们做这个事情的时候一方面跟外面很多数据源合作,同时用内部的数据,既要看数据和逾期之间的关系,也要看它跟欺诈之间的相关度,把这些信息综合起来用在信贷审批、贷款预警、风控模型等等地方,我们跟外面几家机构合作,他们已经做了相当长时间,理论上讲他们个风控模型多投借贷非常完美的,实际上百度数据放进去还可以发现百分之二三十的新增的多头借贷,意味着这百分之二三十如果提前发现就能止损百分之二三十。

刚才讲数据在个人风控上的影响企业风控上也有这样的特点,以前我们要判断出一个企业或者一个资产到底值不值得我们投,假如有人包了一段高速公路,我们就要看能不能用来抵押贷款,能不能用来盈利,以前真有可能派一个人到收费站盯着数一天,现在有了LBS数据以后就不需要这么做了,同样对工厂的繁荣程度都可以通过这些指标来判断。

除此以外百度还在跟很多第三方公司一块合作建模型,这里面来看数据永远是用不完的,不管一个公司里面的数据有多么强大,第三方数据一定会带来某种程度上的补充,所以我们在跟第三方合作的过程中,从风控指标上还是可以有大幅度的提升。

量化投资

最后讲一下量化投资,怎么用机器学习的技术建立量化投资差异化的优势,一般量化投资分几个阶段,首先要搞清楚标的是什么有个调研,接下来是标的筛选,综合一下,最后不断做风险控制,及时调仓做配置优化。在选标的做这些事情的时候有一个事情要去做的就是因子,我们要看用什么样的数据/指标能够预测判断整个行业或者股市的变化,如果能够预测/判断的话就有了先机,就知道了更多信息。这里面拿股票价格作为一个例子,百度每天会有跟股票名称或者代码相关的搜索,一天有两千多万次,我们观察出来整个股票价格的走势和用户的搜索之间有非常强的相关性,可以到0.7以上,这个角度来讲无论搜索还是舆情都代表了某种信息可以提前让我们感知到这支股票将来的走势。

另外时空数据上我们来判断一个企业一个道路上将来的盈利能力的时候,LBS可以很好得用起来,这里举了另外两个更具体的例子,更好的体现这种架式。如果我们通过观察比如4S店和车流情况可以预测整个汽车行业销售的情况。一般来讲汽车行业会每半年发布这样一个数据,但是我们可以通过LBS数据看到,在整个汽车销售的趋势上面LBS可以做到非常好的吻合,相关度0.9以上这样我们就不用等每半年发布数据的时候做判断,我们可以周级甚至更快更新这个数据,了解这个行业的动态,餐饮是同样一些道理。

如图是反映出来除了传统行业在证券这些方面,我们知道很多在金融领域的专家他们已经积累了大量的非常有效的因子,现在我们在看能不能通过互联网的数据去增加一些更好的因子,在这个因子一般选取的时候还不希望它是非常强相关的,因为强相关一旦出问题就会出大问题,这时候需要找比较稳定但是又相对弱相关的,这样当把大量因子在一起就可以稳定判断一个股票的价格或者证券。这里我们可以看到无论是搜索因子还是舆情因子,当力度切合到一定程度的时候,跨几年的表现跟股价相关性都会非常稳定。

最后一个我们看看为了真的验证因子到底是不是真的有效,一方面我们用传统的因子把它放在一起,选一些股票,形成一种选股的策略,然后再从百度里面刚才发现的所有相关的因子也放到里面看,假以时日可以看出来,即使在非常好的传统的因子组成的策略上面新加进来的互联网信号还是可以进一步拉升收益。

刚才给大家从安全、智能获客、大数据风控、量化投资分享了百度现在做的事情,这些事情只是整个互联网金融科技里面的一个小部分,整个中国乃至全世界的金融科技都在蓬勃发展,在这个过程中我们也愿意跟大家一块把这个事情往更好的方向发展。所以我们还是愿意利用这些大数据人工智能的技术一块升级传统金融实现整个普惠金融的梦想。谢谢大家。


更多大会精彩内容,请关注CSDN“2016中国大数据技术大会” 专题报道;微博@CSDN云计算,微信搜索“CSDN大数据”订阅号获取大会精彩资讯。

深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
【5层】公司办公楼全套设计+++(3156平,含计算书、建筑图,结构图、实习报告,PKPM,答辩PPT) 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值