邓仰东专栏|机器学习的那些事儿(一)

目录

1.绪论

1.1.概述

1.2 机器学习简史

1.3 机器学习改变世界:基于GPU的机器学习实例

     1.3.1 基于深度神经网络的视觉识别

     1.3.2 AlphaGO

     1.3.3 IBM Waston

1.4 机器学习方法分类和本书组织


在这一章里面,我们首先审视正在高歌猛进的数据科学,了解使用GPU进行机器学习计算的重要性。接下来,我们回顾机器学习的发展历程,并且检阅当前机器学习技术的几项最高成就:人工智能围棋(AlphaGo)、深度神经网络图像识别(ImageNet)和IBM Waston人工智能系统,从而领略机器学习技术震撼世界的脚步。第三部分,我们对机器学习算法进行概略分类,并且根据分类结果介绍本书内容。


1.1 概述


我们生活在一个伟大的时代,人类文明史上最卓越的心智成就以前所未有的深度、广度和速度交汇融合,催生出潜力无限的数据科学(data science)。数据科学是在人类社会数字化程度充分发展的前提下,综合计算机科学、数学和神经科学等领域的理论和技术成果,以数据挖掘作为应用形式,通过对数据进行存储、分析和可视化等各种处理,从中提炼信息并形成知识,从而引导优化决策的科学。简单说来,数据科学就是针对大数据的理论和方法。


当前,数据科学已经深度融入我们的日常生活,我们可以从一天的平凡生活中检查一下数据科学在怎样发挥作用的:上下班路上,导航系统会分析数据告诉我们不同路线的拥堵情况并且实时预测预计行程时间,如果乘坐公车的话,还可以通过历史数据和实时路况预报公车到站时间;我们打电话时,电信运营商会通过采集我们打电话的模式,诸如地点、时间段和服务套餐情况(但是不能使用时频、语音和个人帐号信息),推断我们的身份、生活习惯和经济状况,从而确定相应的推送内容;


我们上网冲浪时,搜索引擎提供的内容当然是对海量网页进行分析处理的结果,而且也会我把我们的搜索内容拿去分析,从中提炼热点搜索趋势,并且对我们的行为进行推断;购物时,无论是电商还是传统商户,都可能分析我们的购物历史决定向我们推荐商品,而在付款之中或之后,银行的数据分析系统会判断这是一次正常消费还是一次欺诈;


工作时,即使我们不直接使用数据分析工具,也几乎不可避免地在产生或者消费数据,有些公司(例如惠普)甚至使用预测软件分析每个雇员辞职的可能性( 有趣的是,数据分析师自己经常被判别为潜在离职风险较高的雇员,因为社会需求极为迫切。)


除此之外,还有更多的数据分析系统在暗中“琢磨”我们,比如说医疗保险公司在算计我们未来的健康趋势,由此决定保费应该怎样变化,社交网络公司在计算是否发现了你的同学或者熟人,或者怎样让你的社交圈通过最短路径和其它群落连接起来,还有基金公司会分析社交网络上大家的情感趋势,以此作为预测证券价格涨落的依据,如果你是单身而且在征婚网站登记的话,还会有数据分析引擎根据你的资料进行分类和匹配,为你寻找合适的另一半。


数据科学向社会生活的渗透正在以不可阻挡的势头在更大范围上更加深化。表1-1是远不完全(实际上完整枚举数据应用已经成为不可能完成的任务)的典型数据科学应用的清单。


表1.1 典型数据应用

公司/组织

代表性数据应用

亮点

谷歌Google

对全球35万亿个网页进行索引,并形成1亿G字节的索引记录

全部Internet搜索服务的89%由Google提供

亚马逊Amazon

采集并分析其7.5亿顾客的购物行为(包括购物和浏览),分析顾客的收入和偏好,从而为顾客进行商品推荐

Amazon的推荐系统是其成为美国最大线上零售商(年产值900亿美元)的主要助力,也是其品牌的重要标志

网飞Netflix

根据电影内容进行分类,并根据用户观看电影的历史进行喜好分析并推荐电影

非结构化数据学习的经典技术,是Netflix用户和流量继续加速增长的主要动力

沃尔玛

Walmart

利用购物篮分析推荐商品,使用社会和环境数据预测购买需求

沃尔玛自行开发的Data Café数据分析系统处理一个拥有2000亿组交易数据的数据库,能够把销售问题平均解决时间从2~3周降低至20分钟左右

欧洲核子研究组织CERN

分析数据中的特殊能量特征,从中确定是否发现特定粒子

每年产生30PB数据,主要是粒子对撞机中粒子碰撞时产生的光信号,2013年通过分析数据发现了希格斯玻色子

罗尔斯-罗伊斯Rolls-Royce

分析发动机实时监控数据,确定优化维护和修理方案

支撑全球500家以上航空公司和150多支空军的航空发动机,大数据技术显著降低了运维成本

壳牌石油Shell

分析地址数据发现油田

大幅度提高了勘探精度

莲花F1车队

Lotus F1 Team

分析赛场数据实时调整塞车参数,利用数据建立仿真模型优化赛车设计

把青年车手Marlon Stockinger的赛季总成绩从2013年的全球第18名提高到2014年的第9名

脸书

Facebook

分析用户数据推送广告

2014年占据美国24%的在线广告份额,创收53亿美元;预计2017年市场份额达到27%,创收100亿美元

皇家苏格兰银行

Royal Bank of Scotland

分析交易数据最大化客户盈利以及支撑各种客户关系管理需求

通过海量数据挖掘支撑金融个性化服务

目标超市

Target

分解消费者行为预测怀孕可能性并据此推送产品推荐

能够比以往多发现30%以上孕妇

匹兹堡大学医疗中心

出院前预测病人未来30天再次住院的可能性

降低治疗风险

伦敦股票交易所

分析数据决定投资方案

约40%的股票交易由数据应用自行驱动

大陆航空公司

分析航班数据

有效降低航班延误和航线利用率

奥巴马竞选团队

分析选民数据推测哪些选民更容易被竞选活动影响

取得了惊人的程序

惠普

HP

分析全球35万名员工的辞职风险

预计收益3亿美元

美国国税局

分析纳税人数据发现水手欺诈

在不增加工作人时的前提下提升发现逃税率25倍


随着人类社会数字化程度的迅速提升,目前全球数据规模已经达到44万亿GB。数据增长的速度更是惊人,我们可以从图1-1中看看当前各大网站一分钟的数据量。读者可以想象一下,在阅读这一页的过程中,全球数据又增加了多少。


数据产生的来源和数量增长之快,以至于2013年的一份分析报告指出全球数据的90%是在此前两年中产生的([1] SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.)也就是说每两年产生的数据是此前全部数据的10倍,而且我们可以大胆的猜测到本书出版之时,95%甚至更多的数据实在过去三年内产生的。


数据规模是如此之大,种类又是如此之多,以至于一般认为当前我们能够分析的数据只是全部数据的0.5%。那么我们怎样才能充分利用海量数据,而不是“湮没在数据中却饥渴于无法获得知识(Drowning in Data yet Starving for Knowledge)”呢?答案是显然的,机器学习算法必须借助更强劲的计算硬件(严格讲应该是能效比更高的硬件。)和更加灵活的程序设计技术。



 图1-1 全球1分钟内产生的数据


然而,我们手中并没有一种硬件能够同时在上述两项要求上都能表现最佳。图1-2是对常见计算平台的比较。在图1-2的左侧,是执行顺序程序的CPU,其编程模式符合人类的思维方式,编程工具完备而成熟,然而性能相对有限。


特别是自从2000年以后,传统上以增加时钟频率提升CPU性能的方法已经遇到瓶颈,继续提高频率提升性能有限,反而带来功耗的大幅度增加。数字信号处理器是对CPU进行订制,针对特定应用引入专用指令和硬件从而提高性能的处理器,其编程灵活性有所下降,但是能够提高相应应用的性能。数字信号处理器曾经是高性能的标志,但是随着多核CPU的出现,已经逐渐退出高性能计算市场,主要用于嵌入式产品。


多核CPU是在集成电路工艺的集成能力继续提升而单核性能饱和的产物,通过引入多个并行执行指令的CPU内核保证整体性能的增加。多核CPU必须使用并行程序才能获得更好的性能,其编程灵活性有所限制。


 图1-2 常见计算平台的计算能力和可编程性


在图1-2的右端是专用集成电路,即针对特定应用采用特定算法而设计的硬件平台,完全不具备编程能力,但是性能可以达到极致。


在当前市场需求多元化并且高速变化的背景下,缺乏可编程能力是严重的缺陷,因此专用集成电路只有在用量极大的前提下才具有竞争力,越来越多的电子产品使用系统芯片,即集成专用集成电路和嵌入式处理器的芯片。以FPGA为代表的可编程硬件比专用集成电路性能低一个档次,但是具有硬件编程能力,因此也成为一种重要的计算平台。


专用处理器也是折衷可编程性和性能的产物,其思想是针对特定应用设计指令集,其中某些指令可以通过专用硬件直接执行,从而在保持一定编程灵活性的基础上改善性能。然而,专用处理器的应用范围比较窄,因此编程工具极为有限、使用人群较小,因而也限制了灵活性


图1-2的中央是图形处理器(Graphics Processing Unit,简称GPU),其前身是为图形渲染应用而设计的专用处理器,但是经过30年的发展,随着图形应用的复杂度越来越高、性能要求越来越突出,已经演变为具有高度计算能力和高度可编程能力的计算平台。


在各种计算硬件中,GPU比较完美地折衷了性能和灵活性。注意以上讨论中,我们所说的性能其实指特定制造工艺下单位面积提供的性能,不同制造工艺下的不同类硬件平台的性能错综复杂。


由于GPU拥有图形渲染市场的支持,能够保证其出货量,因此能够使用最先进的制造工艺并且制造较大的芯片,从而能够提供极高的单片性能,在较低工艺下制造的专用集成电路和FPGA反而不容易达到使用最新工艺的GPU的性能。从2006年开始,NVIDIA和AMD等GPU制造商意识到GPU可以成为一种与CPU互补的通用计算平台,相继退出一系列编程工具,从而极大地开阔了GPU的应用。


从2010年开始,机器学习成为全球化热点,众多企业、科研和政府机构开始在日常工作中大量使用数据挖掘工具,而机器学习算法普遍具有计算密集特点,特别适合GPU硬件执行,因此,图形处理器几乎一夜之间成为机器学习最重要的应用平台。


参考文献

[1] SINTEF. "Big Data, for better or worse: 90% of world's data generated over last two years." Science Daily, 22 May 2013.



关注LinkSpark公众号,了解更多人工智能相关资讯!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值