趣谈“新基建”——人工智能:未来新能源

本文是我3月14日视频直播《机器学习趣味大赏》的脱水文字版。

很荣幸又能和大家分享我学习的一些心得体会。上一次我向大家报告了关于机器学习如何学的观点,这一次我想向大家报告机器学习如何用、如何玩的一些观点。

首先得从“新基建”说起,这是当前很热的一个话题,关注股市、宏观经济走势的同学,他们的朋友圈应该已经被“新基建”这三个字连续霸屏近一个月。新基建是中国经济未来发展的重头戏,共包括七个领域,其中一个就是人工智能。

这就很让人费解了。基建给人的第一感觉是尘土飞扬,是水泥、钢筋和大工地。为什么充满科幻色彩的人工智能,居然被划入了新基建,是不是哪里搞错了呢?我认为,这恰恰是最值得拍案的地方。我们知道,生活离不开三样东西,水、电、煤,噢,现在还要加上Wifi。就拿电来说吧,家里的所有电器,都必须有电才能使用,所以可想而知,停电会对我们的日常生活造成多严重的影响。知名学者吴恩达说,人工智能会是未来的电能,我更愿意用另一个名字称呼它,叫“人工智能+”。人工智能的“能”,我是当作能源的“能”来理解的,我相信在不久的将来,生活的方方面面,都将需要依靠人工智能来驱动完成。我们看待人工智能,不能再只认为是一个科幻的概念,而应该当作是下一代的水电煤,是实实在在能够为生活和工作赋能的一种“新能源”。

好了,如果现在你看到这里,也认同人工智能会在生活中扮演重要角色,马上兴冲冲地跑到书店想要找一本专业书去了解,那你可能会很疑惑。书架上名字叫“人工智能”的书不多,很多还是科普读物,而专业类的书更多的是叫“机器学习” “深度学习”。

究竟人工智能和机器学习、深度学习有什么关系呢?

一般书上会用“三环”来进行概括三者的关系,有点像北京的三环,是一圈套着一圈。最外圈是人工智能,里面一点是机器学习,最里面的是深度学习。

最近机器学习和深度学习大热,类似这样的关系图也随处可见。这个图很直观,不过细究起来,其实是有一点误导的,容易让人觉得人工智能的核心是机器学习,而机器学习的核心则是深度学习。这种理解不太准确。

长久以来,作为蓝色星球上唯一的智能生物,人类特别热衷于亲手创造“智能”,也就是人工智能。但对如何实现智能,甚至如何定义智能,始终众说纷纭。目前公认的判别智能的标准,是20世纪50年代由数学家图灵提出来的测试方案,叫“图灵测试”,能通过图灵测试的就认为是具有智能,图灵本人也因此被称为“人工智能之父”。标准算是有了,但如何通过图灵测试,各种学术流派开始各显神通,不过在名字上全都统称为“人工智能”。

因此,人工智能远看是一门学科,近看是一群学科,门类众多,不断还有新的东西加入进来,主流的除了机器学习,还包括知识的推理和搜索,以及机器人学。机器人学也许更接近大家对人工智能的第一印象,想进一步了解的话我推荐两本书,一本是《大话机器人》,可以初步了解机器人作为一门应用技术的发展情况。

▲扫码了解详情并购买

当然,机器人学也已经发展为一套理论体系,若想进一步了解相关的专业内容,推荐看另一本CMU出的《移动机器人学:数学基础、模型构建及实现方法》

▲扫码了解详情并购买

究竟通过哪条路才能够最终攀上真正意义上的智能这座巅峰,还远远没有定论。不过,机器学习应该是目前人工智能领域用得最多、效果最好的技术分支。现在提到人工智能技术,所指的一般就是机器学习的知识内容。机器学习很重要,但如果此前没有接触过它,你的第一反应想必是问“机器学习究竟是干什么的?”

这是一个好问题,不过,不好回答。总的来说,机器学习是基于统计学的智能算法,在解决分类问题和回归预测等常见问题上有很好的效果。同人工智能一样,机器学习下面也有很多不同的技术分支,其中最出风头的当属由神经网络发展而成的深度学习技术,现在到处都在用的美颜和刷脸支付,用的就是深度学习的技术。

想要了解机器学习,最好的方法当然就是开始去学。但是,机器学习使用了大量的数学工具,也就是说,要读懂机器学习是干什么的,首先得具备相应的数学基础知识。对于大多数人来说,先花很多时间学数学才能开始学机器学习,这样的学习时间成本太高。我们往往更关心的是机器学习的核心原理,想马上知道它能做什么和怎么做,而并不打算与太多的数学细节纠缠。那有没有一本书能够绕过这些细节直奔主题,让我们在人工智能浪潮席卷时能对机器学习有个概览式的了解,能够最简单直接地回答“什么是机器学习”这个问题?我找了很久,可惜没找到,所以我自己写了一本,书名叫《机器学习算法的数学原理与Python实现》

▲扫码了解详情并购买

这本书书最大的特点是容易读,不需要任何的数学背景,同时突出核心原理,避免因为泛泛地学而模糊了焦点。这很重要。我相信,机器学习很快就会广泛应用于各个领域,而大多数人很可能都不是学数学出身的,可又想马上了解机器学习能不能解决眼前的问题,又有哪些方法可供选择?每个领域当然都有各自的特点,我推荐先读这本《机器学习算法的数学原理与Python实现》,构筑起对机器学习最基本的概念、确立了更明确的目标之后再进行下一步,应该是最有效率的选择。后面我会继续推荐一些涉及不同具体领域的好书。

线性代数是机器学习的两条重要支柱之一。如果说计算机的底层是各种二进制运算的话,那么,机器学习的底层就是各种线性代数运算。需要学习这方面内容的朋友,我推荐阅读《神经网络设计(原书第2版)》

▲扫码了解详情并购买

这本书的线性代数部分讲得特别好,而且它本身就是机器学习的教材,所以和数学教材相比,它更为聚焦,只讨论线性代数在机器学习方面的使用,同时,读了这本书还能了解神经网络的许多知识,而神经网络我们前面已经介绍,是当前最热门的一类机器学习算法。

机器学习的另一条重要支柱是统计学。如果说线性代数构造了机器学习的躯干,那么统计学则赋予了机器学习灵魂。你看到的某一款机器学习算法,它之所以长这个样子,按这样去设计,背后都是统计学的知识在支撑。这方面我推荐《机器学习贝叶斯和优化方法》

▲扫码了解详情并购买

统计学有两大学派,频率学派和贝叶斯学派,对概率统计怎么解析各有各的观点。业内目前比较流行的做法,是使用贝叶斯学派的观点来解释机器学习的算法原理。《机器学习贝叶斯和优化方法》中的“贝叶斯”,就是这里的贝叶斯学派。这本书是英文经典,书很厚,基本上把主流的机器学习算法都涵盖在内,想知其然还要知其所以然的朋友,推荐一读。

对于想更为深入地学习机器学习,了解一些进阶问题的朋友,我推荐《机器学习基础》

▲扫码了解详情并购买

这本书是由纽约大学莫里教授,根据7年以来开设机器学习研究生课程的讲义而编写的。有深度、有难度,推荐想学习机器学习进阶知识的朋友阅读。

最后,我推荐一本机器学习基础知识类的书,叫《深入理解XGBoost:高效机器学习算法与进阶》。这是目前市面上唯一专讲XGBoost模型的书。

▲扫码了解详情并购买

机器学习现在有点神经网络一枝独大的意思,唯一能和神经网络模型抗衡的,就是XGBoost。准确来说,XGBoost不是一种机器学习算法,而是集成学习方法。目前在机器学习领域的应用和竞赛,使用最多的模型除了深度学习,就是这款XGBoost。

前面聊了机器学习是什么,接下来我想向大家报告机器学习都可以用来干什么,说大一点就是前面提到的“人工智能+”,都可以加哪些领域。

前一段自媒体很爱聊的一个话题,叫“你的工作会不会被人工智能取代”。有一个很有意思的地方,很多自媒体似乎都认为学历低、知识附加值低的工作很容易被人工智能取代。

这个观点对不对呢?

我认为,有点太简单粗暴了。举个例子,医生都是高学历,不过,人工智能,或者说机器学习目前的一个主要应用领域,正是医学领域。为什么呢?因为医学领域的一些自身特别,为机器学习提供了得天独厚的条件。

回想一下,我们去医院看病一般都分三步,首先要先做检查,然后医生根据检查的结果进行诊断,最后开出药方。检查通常有两种,拍片子和测指标,按格式来说就是图片格式和数值格式,这两种格式都是能作为机器学习模型的输入的。同时,医院积累了大量的病例,包含有检测情况和诊断结果,这就是现成的训练数据集,只要机器学习模型能利用这些病例进行训练,就能找出病症与疾病的关联关系,只要输入病人的检查情况,模型就能像医生一样给出诊断结果。如果再进一步,把各种情况对应的治理方案也喂给模型训练,那模型就能直接开出方子,告诉病人该怎样治病。这就是人工智能+医学。

不过,我其实是反对XX工作会被人工智能取代这种制造焦虑的说法的,我更倾向于人工智能是一种工具,能够将人从重复繁琐的劳动中解放出来,把时间精力用在更需要创造性的工作上去。我相信,人工智能+医学不是取代医生,相反是给医生找了一位好帮手。当然,要真正实现这个目标还需要解决很多现实问题,例如如何将医院现有的各种数据喂给机器学习模型,我推荐《机器学习技术与实战:医学大数据深度应用》,这是一本专门介绍机器学习在医学领域如何应用的书。

▲扫码了解详情并购买

这本书很难得,因为一般人很难有机会接触医院的内部数据,而作者应该是参与了医院的建设项目,所以才有机会进行深入的研究。作者将医院数据进行梳理,分成了结构化数据和非结构化数据,并分别讨论两类数据该如何具体处理和使用,其中对非结构化数据的处理方式,对我很有启发。

医学领域之所以适合引入机器学习,是因为积累了大量的数据,这里的数据,其实指的是结构化数据,譬如我们去体检,体检单上的每一项指标以及对应的值,就是典型的结构化数据。很多行业目前不是没有积累数据,而是没有积累结构化数据,譬如说商品评论,商家最想了解的当然是顾客的好评和差评,但顾客一般不会简单回复“好”或者“差”,而是回复一段长长的话,这就是非结构化数据,如何处理非结构化数据,将它转化成能够用于训练模型的结构化数据,是很多行业在引入机器学习之前,需要首先考虑的问题。一种方法是人工标注,雇佣一些人来读这些话,然后按固定格式重新填写。这种方法可行,但人工成本很高,海量的数据是不可能靠这种方法进行处理的。机器学习对这类情况当然也有自己的解决方案,这就是自然语言处理技术(NLP),这方面我推荐阅读《Python自然语言处理实战》

▲扫码了解详情并购买

说到自然语言处理,就不得不说另一个话题,自然语言处理对中文和对英文并不是完全相同的。英文和中文最明显的区别在于英文是由一个个单词构成的,而中文首先还要考虑分词问题,也就是有中文有一些自身特色问题。所以,在自然语言处理方面,国内作者所写的书可能更有实战参考价值。

接下来我想聊一下机器学习在移动平台上的使用。移动平台现在使用很广,加上机器学习当然如虎添翼,但为什么要专门考虑在移动平台上的使用呢?因为机器学习的是耗能大户,而移动平台,譬如说智能手机,能耗是一项特别需要关注的指标,所以机器学习在移动平台上需要进行额外的设计,简单点来说就是不能太耗电,这肯定会对其他的一些性能方面产生影响。我推荐阅读《移动平台深度神经网络实战》(公号对话框回复“mob”,即可免费获取本书电子书)。

▲扫码了解详情并购买

这本书专门介绍如何在移动平台上使用机器学习算法,还对一些专门为移动平台而设计的热门机器学习库做了介绍,如果正在考虑在移动平台端开发相应产品,推荐阅读这本书。

最后,我想谈一个很重要、非常重要,但同时也很容易被忽视的方向,人工智能+安全。

在我看来,人工智能+安全有两层含义,就像大小两个圆球套在了一起。先说小的那个,是指用机器学习解决传统安全方面的问题。安全领域和医学领域其实有很多的共通之处,譬如医生要研究和对付病毒,安全人员也要研究和对付病毒,而且流程还很类似,都是先检测,再判断,最后进行处置,更关键的是,安全领域也积累了大量的“病例”,我们一般叫病毒库,这就可以拿来训练机器学习模型了呀!但是,这同样也要面临具体如何应用的问题。我很早就在读数据挖掘泰斗韩家炜老师出那本《数据挖掘》,这是业内公认最经典的数据挖掘教材,不过我很快发现,真要从理论走到实践,所迈出的每一步,譬如哪些场景可以使用,可以使用哪些模型,怎么提取特征,提取哪些特征等,始终都有一串书上不可能涵盖的问题拦在前面。这时我读到了兜哥的书,大受启发,这套书一共三本,叫AI安全三部曲

▲扫码了解详情并购买

▲扫码了解详情并购买

▲扫码了解详情并购买

机器学习还处于不断发展的阶段,兜哥这套书把当下最热门的模型都一一翻了出来,把它们与具体的安全问题结合在一起,读完相信都会很受启发。

再说说更广义的人工智能+安全。这个话题很大,有机会希望能就这个话题向大家专门报告,不过实在太有意思了,忍不住先和大家分享一二。

安全很重要,一项技术的发展前景好坏,不但要看技术本身的潜力,还要看配套的安全做得如何。软件也好,网络也好,始终都围绕着各种安全问题不断地进行激烈的攻防对抗,如果攻方一时占了上风,那相关技术的普及应用就要停滞下来,等待配套的防御能力跟上才能继续。

人工智能、机器学习的发展也不例外。设想一下,刷脸支付当然方便快捷,可如果安全配套做不好,别人也能拿着我的手机刷脸支付,那这项技术谁还敢去使用?因此,业内有一个很热门的研究方向,专门研究这类机器学习相关的安全攻防问题,包括如何进行干扰让模型产生误识别,和如何防止干扰避免模型产生误识别,名字叫对抗机器学习。第一次听到这名字时,我是感到非常好奇的,如果你也想了解,我推荐《对抗机器学习:机器学习系统中的攻击和防御》,相当系统地介绍了对抗机器学习的研究内容和成果。

▲扫码了解详情并购买

兜哥也出了本介绍这方面内容的书,叫《AI安全之对抗样本入门》

▲扫码了解详情并购买

机器学习中的攻防对抗究竟是怎么进行的,又有哪些方法呢?展开诉述又是一个很大的话题了,有机会我们下次再聊。

好消息!好消息! 以上推荐好书京东5折

本文系《机器学习算法的数学解析与Python实现》作者莫凡3月16日的直播内容整理,直播录像可识别下方二维码观看。

作者简介

莫凡——新技术深度爱好者,曾经从事信息安全前沿技术跟踪研究和数据分析工作,在各类信息安全类技术期刊杂志发表文章五十余篇,现转为投身高端知识“白菜化”项目,希望能让将更多听起来高大上的名词沾一沾人间烟火,成为日常中生活真正用得上的知识,著有《机器学习算法的数学解析与Python实现》。个人公众号“睡前机器学习”,个人知乎号“木羊”。

点击这里阅读原文,直达新基建专场

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值