人工智能产品经理具备的机器学习知识
在机器学习产品的研发过程中,需要产品经理准确的找到用户需求和机器学习技术的交集,为训练模型提供必须的计算资源,以及产品研发期间为研发人员提供的高质量数据。
基于此,产品经理需要掌握:
1、机器学习流程。
2、机器学习解决问题的分类。
3、算法的基本原理。
4、工程实践中算法、数据和计算资源的依赖关系。
1、什么是机器学习
机器学习是人工智能的一种技术,用来研究计算机怎样模拟和实现人类的学习行为。
1.1、机器学习、表示学习、深度学习
机器学习:通过算法模型对新问题识别和预测。
表示学习:机器学习的性能依赖于人为给定的数据表示和特征,特征选取的结果最终决定了学习效果。但是,特征选取会随着场景的变化而变化,依靠人工为一个复杂场景选取特征是不现实的,用机器学习的方法来发掘输入的表示本身就是表示学习。
深度学习:很多情况下,特征不能被直接观察到,延伸出了各种神经网络。
1.2、机器学习的本质
机器学习的产生来源于人类对自身学习的理解。人类是通过经验和知识对事物进行判断并采取行动,机器学习则是通过读大数据进行学习,构建复杂的模型,当新数据输入时依据模型进行预测。
2、机器学习流程拆解
首先,我们介绍下机器学习的一般流程:
训练数据集 ---> 数据预处理 ---> 处理后的数据 ---> 训练预测模型 ---> 模型验证
新的数据 -----------------------------------------------------> 预测模型 ----------> 输出结果
1)原始数据采集:从各种场景中获得的数据,并做好标记。
2)数据预处理:数据清理,归一化操作等,并做训练集、测试集、交叉验证集。
3)模型训练:通过一定的算法对数据集进行计算,得到预测模型。
4)模型评估:用测试集来判断拟合能力。
5)调参:用调参的手段优化模型。调参的过程是基于数据集、模型、训练过程的验证。经验和灵感是算法工程师调参的手段。
6)推断:机器学习做出预测的价值所在。
3、人工智能产品经理的算法常识
产品经理熟悉算法的基本逻辑、使用场景以及不同算法对数据的要求有助于与研发沟通、给团队提供有效帮助、识别和评估产品迭代过程中的风险、成本、预期效果。
3.1、算法分类
1、按照模型训练方式分类:
1)监督学习:样本数据都是有标签的。常见的有自动编码器、反向传播、卷积神经网络、Hopfield网络、多层感知机、径向基函数网络、朴素贝叶斯、高斯贝叶斯、分类和回归树(CART)、ID3、C4.5、随机森林、线性回归、逻辑回归、SVM等。
2)无监督学习:样本数据无标签,从没有人为注释的数据中提取信息,学习从分布中采样、去噪、寻找数据分布或者聚类。常见的有对抗生成网络(GAN)、先验算法、K-means聚类、K近邻算法(KNN),局部异常因子算法等。
3)半监督学习:有少部分的数据没有标签。常见算法有生成模型、低密度分离、基于图形的方法、联合训练。
4)强化学习:让计算机通过不断尝试,从错误中学习如何在特定的情境下,选择可以获得最大回报的行动,最后找到规律、达到目标的方法。每次尝试都会打一个分数,目标是尽量获取高分,如果状态更新后给模型正反馈,模型就会递归的分数越来越高。跟监督学习不同的是不利用明确的行为指导,利用已有的训练信息对行为进行评价,主要通过如何获得最大化奖励来反复尝试,直到模型收敛。常见的算法有Q学习、时序差分学习等。
2、按照任务分类:
1)二分类算法
2)多分类算法
3)回归算法
4)聚类算法
5)异常检测
深度学习
使用由多重非线性变换构成的多个处理层,对数据进行高层的抽象的算法。用无监督学习来高效的提取特征来代替特征的手工选取。本质上式让计算机用层次化的概念体系来理解和学习,每个概念通过与某些相对简单的概念之间的关系定义,用简单概念学习复杂概念。
典型的应用有:电商的商品推荐引擎,社交网络推荐新闻等。
常见的算法有:深度信念网络、深度卷积神经网络、深度递归神经网络、分层时间记忆、生成对抗网络等。
迁移学习
把已经训练好的模型参数迁移到新的模型上帮新模型训练的学习方法。主要用于训练数据获取困难,成本高等问题。常见的算法有归纳式迁移学习、直推式迁移学习、无监督式迁移学习、传递式迁移学习等。
3.2、算法的适用场景
算法选择有几项需要考虑的范围:
1)数据量大小、数据质量、数据本身特点。
2)机器学习业务场景中的问题本质是什么
3)可以接受的计算时间
4)算法精度多大
具体就算法和应用场景进行下讨论:
1、二分类:
1)支持向量机:数据特征较多、线性模型的场景。
2)平均感知器:训练时间短、线性模型的场景。
3)逻辑回归:训练时间短、线性模型的场景。
4)贝叶斯点机:训练时间短、线性模型的场景。
5)决策森林:训练时间短、精准的场景。
6)提升决策树:训练时间短、精准度高、内存占用大的场景。
7)决策丛林:训练时间短、精准度高、内存占用小的场景。
8)神经网络:精准度高、训练时间长的场景。
2、多分类:
1)逻辑回归:训练时间短、线性模型。
2)神经网络:精度高、训练时间长。
3)决策森林:精确度高、训练时间短。
4)决策丛林:精确度高、内存占用小。
3、回归:
定量预测中,连续的输出称为回归。离散输出称为分类。
1)排序回归:对数据分类排序。
2)泊松回归:预测时间次数。
3)快速森林分位数回归:预测分布的场景。
4)线性回归:训练时间短、线性场景。
5)贝叶斯线性回归:线性模型、训练数据量少。
6)神经网络回归:精度高、训练时间长。
7)决策森林回归:精度高、训练时间短。
8)提升决策树:精度高、训练时间短、内存占用大。
4、聚类:
发现数据的潜在规律和结构。描述和衡量不同数据源间的相似性,把数据源分到不同的类簇中。
1)层次聚类:训练时间短、大数据量。
2)k_means算法:精准度高、训练时间短。
3)模糊聚类FCM算法:精准度高、训练时间短。
4)SOM神经网络:运行时间较长。
5、异常检测:
对数据中存在的不正常或非典型的个体进行加测和标记。异常检测中的异常点非常小,大多数样本都是非异常的,在很少的异常样本中,异常的的情况可能各不相同,难以找寻规律。
1)信用卡欺诈
2)计算机安全检测
3)健康风险检测
常用算法:
1)支持向量机:数据特征较多。
2)基于PCA的异常检测:训练时间短。
4、机器学习常见平台
TensorFlow等
首先,产品经理要对各类机器学习平台有所了解。其次,熟悉常用功能并做简单的工程实践。