最近一个关于金融科技公司的评奖结果出炉了,就是“毕马威中国2017领先金融科技企业50强”。
“领先、金融、科技、毕马威”……小编觉得这个奖项的名字真的很高(you)大(dang)上(ci)!
话说接近年关,评奖活动以及颁奖典礼还真多,但这个奖可是大大不同,这可是毕马威牵头组织评选的,除了名字很高端之外,在金融科技领域也相当有含金量。
先上一张2017年上榜企业“全家福”吧!
毕马威中国2016金融科技50强
小编认真搜罗了前后两届的上榜企业名单,意外发现了一家公司已经二度上榜,哪家?就是天云大数据!
如果仅仅看公司名称,妥妥的一家大数据公司,但实际上人家在AI 领域已经深耕多年,经验和产品都很丰富,特别是在金融领域。
据悉,天云大数据的智能平台已经在银行贷前、贷中、贷后都建立了反欺诈、申请评分、行为评分、早晚期催收模型,此外在互联网金融黑名单多头贷测试、失联修复、循环担保等方面也有成功案例。
这么看,公司的AI金融产品真的很厉害!
其实除了产品“出挑”,小编还了解到该企业对AI 的认识看法也同样独到,完全是一家面对AI 大潮“不跟风、有理想”的公司。
下面听一听天云大数据CEO雷涛关于目前AI 发展的一些见解吧!
在颁奖典礼上,雷涛表示,目前人工智能已经出现两轮,方向和趋势都有所变化。
其实人们最早看到的是人机交互方向的人工智能,这也是大家目前比较热衷追逐的,例如人脸识别、无人驾驶和自然语言处理等,这些具体的热点都与视觉和语音相关。
这就导致目前关于人工智能的诸多应用中,例如无人驾驶、语音识别等人机交互场景更吸引人们的关注,但未来人工智能发展趋势会更加凸显规模化模型生产能力。
例如,最近某大型银行推出新版手机app,功能背后是年生产600种智能推荐模型的算法支撑,是以人工智能赋能金融,实现规模化模型生产的最佳范本。
其实雷涛提到的“规模化模型生产能力”,就是谷歌在2015年着手做的AI 的PaaS化。
关于AI 的PaaS化
延续雷涛提出的问题,小编先简单梳理下 AI PaaS化的“前世今生”。
人机交互应用发展“相对成熟化”
计算机视觉在AI 领域是最早被爆出的热料,早期因为视觉信号比较低,只有红绿蓝像素,但通过这些低阶的简单信号,还是能够通过循环神经网络重复出大规模的特征来进行人脸识别,受此影响,计算机在窄场景(语音、图像等)领域就会催生实践力很强的算法,进而带动了图像识别方面的论文高产以及各类竞技比赛的层出不穷。
在这个背景下,2015年、2016年相继开放了关于图像和自然语言的一些基础数据训练集,数据资源变得非常有序,在算力方面只要有足够的资本投入,人机交互变得日渐容易;此外因为像人机交互的数据集很多是通用的公开数据,例如即便用北美人的图片也可以序列化后用于中国脸,只不过识别率稍微低一点,个别地方需要修整,但是这个业务启动的效率还是很高的;再比如像自然语言处理也是,谷歌10亿单词短语训练集开放以后,门槛也会随之迅速降低……这么看来第一波市场集中在人机交互还是有理由的。
企业级的智能应用还得靠PaaS形式?
雷涛表示,除了AI应用的层出不穷,我们还要密切关注另一个市场的发展,也就是企业级的应用市场。
由于企业级应用市场的数据主要存在于企业内部,建立模型并不现实,即便开发了一套系统也不能完全支持各种环境的通用性,所以企业级市场需要机器学习能力的时候,需要用数据驱动替代一些业务流程驱动的方式的时候,因为数据的局部性,必然导致AI的落地形态发生变化。
人脸识别、自然语言处理,通常都是以API的调用方式被应用直接获取,但对于企业级的应用只能通过PaaS形式。
这是为什么呢?
因为企业级数据私有化程度较高,不可能在任何地方都可以用事前架构好的模型来应用;涉及算法多种多样,不同的企业问题就有不同的算法方向,未必是卷积神经网络一招包打天下,其中有可能用到循环神经网络,甚至可能只是用一个基础的分类器SVM,效果同样好。
在多样的业务场景下,算法的多样性、数据的排他性,决定不可能用一个API的形态完成整体的智能化过程。
AIPaaS化或许比纯粹造应用更有价值
2015年,谷歌就开始着手AI的PaaS化。
2016年,Facebook、亚马逊等公司也开始在这方面努力着。
过去很长一段时间里,人们盯着算法来做各种AI 应用,产生了各种智能识别以及预测,确实给智能零售领域带来了本质性的冲击,例如无人售货机,应用层面的百花齐放逐渐成为AI行业的“风向标”,但雷涛认为我们应该冷静下来看一看,其实AI PaaS这个层面包含一个更广泛的企中业级应用市场。
企业级AI应用的落地,其实已经不是看脸,听语音那么简单了,最核心的是替代原来的经验规则,也就是怎么用数据表达这些非线性的、隐含的事实,通过数据科学能力重塑商业流程。所以对更广泛的企业服务领域,AI能力的赋予绝对比看人脸,做智能语音客服价值要大。
小编大胆设想下,AI PAAS市场的到来,无疑就像为移动互联网配置了一个安卓平台,移动互联能力、应用开发能力大规模被释放出来。这个场景就像2002年只有诺基亚、摩托罗拉这些大公司才能生产一个APPs,而安卓带来了移动应用市场的繁荣。AI to everywhere,AI PaaS会赋予更广泛的服务智能。
关于AI人才
2017年,世界集体见识了人工智能有多么狂热,Alphago大胜柯洁,Alphago Zero自学成才完胜Alphago……AI技术在各行各业落地应用的同时带来了AI人才“大缺口”的凸显。
据小编了解,截止到2017年10月,中国AI人才缺口至少在100万人以上,AI人才平均月薪2.58万元,远远高于一般的技术类岗位。
网络用图,具体出处不明
小编赤裸裸的羡慕AI 人才“优势薪资”的同时,也就AI人才这个热议话题与雷涛探讨起来!
记者:您觉得我国在人工智能人才方面真的出现了“人才荒”吗?
雷涛:坦白来说都挺荒的,我们作为一家深耕AI 的公司,如今摸索到了一些路径,因为有了AI的PaaS化,现在开始大幅度降低人才板块的难度。
举个真实的例子。上周末回公司的时候,我看到一个本科毕业生正在做一个循环贷模型,看到这个循环贷模型后,给我的信心很大。我发现只要他在平台上,通过有效的指导,在统一的AUC评估方法上得到的结果,与经验丰富的博士没有多大差异。
硅谷一个概念是数据科学工程,DataScienceEngineering, 将算法算力融合交付的工程。借助这种工程实践,我们希望能够形成一些像蓝翔技校这样的机构可以培养年轻人很多AI 方面的能力,前提是这些年轻人原来就具备数理统计的基础,现在提供给他们一套自动化的工具就可以灵活处理数据和驾驭算力。
这种过程实际上是可以被透明化的,让开发者完全透明化,只要灌输数据,通过数据本身的表达来形成算法,进而降低人员对数据,和对数据科学的一些要求。
经过这样一个过程,我们就把AI 人才的门槛儿降下来了,完成了人才的搭建。这个道理就类似于以前一个游戏只能在北美大规模实验室里产出,因为只有摩托罗拉和诺基亚才有原生的操作系统,才能够从底层一直写到屏幕。
用PaaS化的工具完成对AI 人才的牵引,AI的这种能力就会快速的形成,这对整个IT人员的转型和冲击非常大,逐渐形成“年轻大厨”PK“年长配菜师”的局面。
同时,从这个角度出发,人才的结构也会发生很大变化,突出表现就是学数理统计这一批人的价值会凸现出来。
当有工具能力出现的时候,这类人才的市场需求量会很大,相比之下以前那种懂业务的,例如ERP流程专家会被大规模替代。
伴随这种情况进而会出现一个新的职业,人称人工智能产品经理。
在移动互联网和传统ID时代,产品经理强调流程设计,商业实践的点子,以及用户体验等,例如Facebook产品经理更多的是关注用户的感受。但AI产品经理人需要的是能够把握不同的算法替代不同的流程,也就是商业流程的再造或重塑。
什么时候该用规划算法,什么时候该用分类算法,什么时候该用一个预测的回归算法……头脑中要有清晰的技术上线与技术边界,能够解决什么问题等。这一类产品经理人会赋予未来更多的应用智能,这种职业人才在未来是十分稀缺的。
对于天云大数据自己的人才储备,我们现也做了一些“产学研”的尝试,例如开始规模化试训,这个过程中如果政府能够参与进来,效果会更好。
关于AI的安全
最近爆出谷歌免费开放给AI设计者的编程平台TensorFlow其实有严重的安全隐患,一旦被黑客利用后果将不堪设想……由此引发的关于AI 安全的思考又登上了话题热议榜单。
网络用图,具体出处不明
记者:关于机器学习框架被爆出安全隐患的问题,您是否可以聊一聊AI 的安全?
雷涛:首先TF是个交流和开放的数据科学环境,它本身不是一个企业的应用平台,如果把Tensorflow上某个算法直接拿来去做一个企业应用的话,这个想法也太简单了。
其实谷歌Tensorflow的目标是为了提供一个科学家相互交换能力的平台,用数据实现一个回归模型并释放出来,衡量下是否好用。
如果这个框架直接拿过来在企业部署内完全使用,没有充分考虑到安全的话,发生问题就说这个框架存在安全隐患,我觉得说法有点太片面,毕竟谷歌的出发点不是这个。
安全的问题更多在于企业自身,这需要企业去做大量的固化和防护,尤其数据方面,安全的挑战更大。
我觉得应该关注谷歌Tensorflow2周年时提到的方向,即将打算走向分布式的问题,也就是如何将算法从单纯强调精确度,到现在开始考虑算法与数据与算力的规模化融合问题。
在这个问题上,实际上Python作为解释语言很难做到作业任务调度,所以这个时候也要开始一轮更新的更本质native的一些调动计算资源的方式。换句话说,如何解决算力的问题,部署大规模的算法,目前有效的方式就是与分布式相关联。
是AI本身的安全性还是利用AI服务安全?这是两个问题!
关于AI服务安全这方面,差分隐私DifferencialPrivacy就是一个很好的实践。现在连手机上的信息输入都会有隐私泄露的风险,用AI 保护数据隐私就是在本地这个环节进行加密,通过AI的方法将数据离散、抽样、加噪音,进而做到将虚拟层面的个体与物理层面的个体相互分离,达成数据归属“不明”。
因为算法的核心就是个性化,需要解决充足性问题,就不单单是一个简单的概率,所以必须要借助个性数据。只有经过上面的分离程序,开发者才可以利用个性化数据完成个性化服务,又可以做到不侵犯个人隐私。
个性数据保护有效方法就是从“来源”入手,所以利用这种技术概念来诠释AI如何保护个人隐私,是每天都可以操作并切实可行的。
关于知识图谱落地金融行业
知识图谱最初是由谷歌提出用来优化搜索引擎的技术,在不断发展中外延一度扩大,目前已经助力了很多热门的人工智能场景应用,例如语音助手 Siri,聊天机器人等。
网络用图,具体出处不明
由于金融领域数据量以及数据类型的庞大多样,知识图谱也日渐成为其数据处理的主要工具之一,更成为很多大数据企业进军金融场景的突破口。
记者:现在有很多大数据企业,提供企业级知识图谱的解决方案并应用到金融领域,您觉得知识图谱助力金融领域做数据分析和挖掘的工作,对此有什么看法?
雷涛:知识图谱或者图计算或者复杂网络,在金融信息工程中应用越来越多。
知识图谱的金融实践也是逐步发展的。比如初期技术上图计算,实体会用到一些人工定义的方式,从传统数据库抽取出来,例如工商数据,或者是自然语言实体抽取的方式。做一个可视化表达面向业务,或者提供基础的顶点查询或距离计算,这是知识图谱经常使用的方法。高阶应用会涉及到聚类分类机器学习等,更大规模网络还会采用Encoding编码方式的表达来降低运算规模,比如Node2Vector,deepwalk。
复杂网络会用在很多场景,因为它提供的是一个数据基础纬度的升维化过程,把文件一维的结构、二维的表结构做成一个高维的向量结构,它可以表达很多事物隐含的关联关系,而且可以把关联量化出来。
知识图谱的表达不仅仅是可视化,更多是量化计算。例如我们在2015年给人民银行做循环担保的关联系统,当时构建了6000多万个节点的规模,当时觉得已经很大了,因为把全国范围内所有的有组织机构代码全覆盖了,但随后为一线BATJ服务的复杂网络,已经达到百亿节点规模,做更深度的风控手段,对黑名单和多头贷做预测。
关于天云的AI之路
据记者了解,目前业界已经出现能够将算法能力与业务人员相融合的AI平台,其中天云大数据的MaximAI就是这样一个平台的形式。
这个平台能够将计算能力、在线数据、业务价值融合在一起,通过AI算法平台快速建立模型。例如现金分期响应模型,预测筛选办理此业务的高概率客户,同时帮助银行等贷款机构有效推送现金分期服务;建立循环授信模型,对客户行为特征进行分类,并确立客户对循环授信响应评分等。
记者:是否可以聊一聊,天云大数据是如何进入AI 领域的?
雷涛:其实我们一直也没有从本质上离开过AI领域。
早在2011年团队在云基地时做的第一个大规模分布式项目,就是运营商的上网内容基地,也就是手机报如何区分出动漫、游戏、音乐等,这是典型的NLP AI项目。
在做这个项目的时候,第一天我们碰到的问题就是分布式和算法的融合,如何面向1.2亿用户行为数据的机器学习。
其实在早期大数据领域,很多大数据的厂商属于BI厂商,他们做报表、可视化,所以给人感觉离AI 还是有些距离的。
其实大数据是一个很广泛的概念。
最早的UC Berkeley大数据实验室是AMPlab,大数据的顶级项目Spark就是从这个实验室流出的,AMP的A首先强调的就是Algorithm,也就是算法,AMP的M是指Machine算力,Hadoop/NoSQL一类计算栈;P更强调的是数据的商业化,也就是数据怎么生产和流通,通过众包、交易、定价、流通等方式,所以大数据本身是个很广泛的概念,而AI算法能力是其核心要素。
例如2015年,大型银行给我们提出的要求是如何对接SAS数据挖掘平台,泰康人寿给我们提出的要求是如何全量数据上完成一个聚类分析……其实这些都是有关机器学习的要求,毕竟AI也并不是今天才产生的新鲜事物,我们在业务中也一直渗透着做这些工作。
记者:未来会不会利用贵公司在人工智能和大数据领域的相关优势,服务其它行业?
雷涛: PaaS本身就是跨行业的,非常基础的赋能平台,因为在Fintech领域用的人最多,这些EarlyAdopter容易接受机器学习的建模方法做风控定价等业务操作,所以我们在这方面先启动了。
但同时,BI 和AI有显著不同。BI进入一个行业中,就要做到比客户还了解业务,才能做出KPI,进而做出仪表盘、报表这种决策支持体系。
相比之下,AI是数据驱动的,所以可以部分忽略这些因素,只要满足对数据的的特定要求。简单来说无论是人脸识别、无人驾驶还是下围棋,都利用了卷积神经网络。输入端特征不完全依靠业务定义。
这样来看,无论输入黑白落子,还是RGB像素,其实对于算法描述具体业务是没有影响的。所以在BI领域,行业背景knowhow要求非常高,做零售就做不了制造业,做医疗肯定不懂金融……但如果采用AI PaaS化平台这种能力交互,就会发现问题回归到了基础数学的特征表达问题,也就跨领域的问题泛化能力更强。
作为专注于大数据基础设施软件平台和分布式人工智能算法的科技创新公司,天云大数据自2013年成立即深耕金融科技,如今已经是惊喜不断,我们期待未来继续在AI 领域的长足进步。