机器学习的狂热,以及对基础设施、数据存储和云应用的重大改进,都导致人们对其兴趣的有增无减。谷歌和脸书已经做了许多面向消费者的改进,其他公司也在努力。
那么,什么是机器学习和人工智能呢?
人工智能(AI)是一款做人类可以做的事情的软件,但是我们希望它速度更快,性能更好。例如,在会议中做记录,并能突出所有后续的任务。机器学习是一种使用算法而非传统的基于规则的决策树来实现AI的方法。在更高级别上,机器学习有三个步骤:感知,推理和生产。
目前,机器学习已经越来越流行,并在过去五年已经具有了更好的可行性。
而机器学习领域取得的几个重大进步,已经推动了技术、应用的巨大飞跃,并改进了技术的整体可访问性,比如云计算和大数据。
具体来讲,有四个主要因素导致目前企业广泛在其产品中应用机器学习技术。
而机器学习的现状,及其未来对产品和服务的影响的潜力可以通过三种具体方式来看待:
1:机器学习不是一体的
机器学习可分为不同的类型(如有监督和无监督),同时包括各种技术(如回归、神经网络等)。这些技术和类型不是一一映射的关系,而是要根据具体情况以不同的组合使用。下面是我的总结。
学习类型:
监督学习:监督学习要根据已给的预定特征和已标记数据来生成模式(如传统保险承保);
非监督学习:非监督学习尤其适用于未标记和非结构化的数据(如Gmail垃圾邮件);
半监督学习:是监督学习和非监督学习的混合体。通常情况下,会有一些标记数据,但不会很多(如客户细分);
强化学习:强化学习在训练时为算法提供反馈,是基于经验的决策机制(如下棋)。
2:深度学习虽然有显著的优势,但也有很大的缺点
深度学习是基于人脑结构的算法,往往是一个多层的神经网络,这使得网络很“深”。我们经常在无监督学习和强化学习中听到深度学习的赞美,但在大型复杂问题下,监督学习对深度学习也可能是有价值的。
相对于其他技术,深度学习有三个关键优势,即鲁棒性、通用性和可扩展性。
-
它是鲁棒的,因为用于对数据进行分类的特征不需要预先取定,可针对给定任务学习最佳特征;
-
它是通用的,因为同一神经网络可用于不同的应用和数据类型;
-
它是可扩展的,因为1)该方法可并行化,即能在多个处理器下同时运行; 2)随着数据量的增加,性能能得到改进,降低了过拟合的可能性。
尤其的,这对三个领域有重要的影响:自然语言处理,计算机视觉和机器人。
同时,我们也应该了解其缺点。其中最大的问题是其可解释性差,当神经网络确定了某些特征,并根据这些特征做决策时,我们无法获知其原因。这就意味着,如果系统中存在数据损坏或人为偏差,我们将无法确定其存在,对于会对社会产生重大影响的案例(如财务和执法)将是危险的。
此外,深度学习模型需要极大量的数据和超强的计算能力才能实现,这是昂贵和耗时的。这是一个需要慎重考虑的权衡,特别是对那些正打算开发产品的年轻初创公司们。
因此,深度学习并不总是最好的方法。对于每个具体的用例,数据科学家需要考虑偏差,计算资源可用性和数据获取等因素。
3:机器学习将对产品的未来产生重大影响
机器学习本身不是一个解决方案,而是一个优化期望结果的工具。因此,利用机器学习的公司应该专注于用户体验,并从处理数据帮客户分析,到专注于战略和建议,使决策更有效和准确。未来,很可能用户界面将简化为推荐单一动作,而非提供大量的选项。下面两个例子说明了这种转变的雏形。
Facebook的照片标记引擎已优化为推荐标记(左),相对于以前的版本(右)更聪明,使用更简单。
同样,Google现在可记住用户停车的位置(左),并根据航班时间、目前位置和路况推荐出发时间(右)。这种基于推荐的、简化的用户体验将是产品用户界面的未来。
这些例子说明了机器学习将产生的巨大影响,因为它继续使更有效和更简单使用的产品。