AI产品经理需要懂的技术全景图(自学笔记3)

目录

数学统计学相关的基本概念

线性代数中的基础名词

概率统计中的常见分布

模型构建、算法知识以及模型验收

模型相关技术名词


AI 产品经理一定要懂技术!

总的来说,AI 产品经理需要知道五方面的技术知识:1.数学统计学相关的基本概念 2. 模型构建的整个流程 3.常见算法的原理和应用场景 4.模型验收的具体指标和方法 5.模型相关的技术名词。其中,模型的构建流程、算法的技术知识和模型的验收标准这三项知识非常重要,它们也是 AI 产品经理必备的核心能力。

数学统计学相关的基本概念

分为两类:一类是线性代数中的基础名词,如标量、向量、张量;另一类是概率统计中的常见分布,如正态分布、伯努利分布。

线性代数中的基础名词

标量(Scalar):一个单独的数

向量(Vector):标量按一定顺序组成一个序列数,如 {x1 , x2 , x3 ,..., xn}

矩阵(Matrix):把向量中所有标量都替换成相同规格的向量

张量(Tensor):将矩阵中的每个标量元素替换成为向量

标量看成是零阶张量,向量看成是一阶张量(一维数组),矩阵看成是二阶张量 (二维数组),而且任意一张彩色图片都可以表示成一个三阶张量

举例理解:把矩阵看成一个灰度图像,如果一张灰度图像是由 32*32 个像素点组成,那这个图像就是一个32*32 的矩阵,每一个像素点就是由灰度值(0 到 255)组成的标量。

再比如,在做用户画像的时候,如果有 N 个用户,每个用户有 M 个特征,我们就会得到一个用户画像。它可以看成是一个 N*M 的矩阵,矩阵中的每一个点, 都是某一个用户对应的某个特征,是一个具体的数值,也就是标量了。

概率统计中的常见分布

概率分布是用来评估特征数据和模型结果的武器。 产品经理要掌握常用的概率分布的类型。其次,还要知道业务场景下的特征数据和模型结果的分布,以及它们应该符合哪种分布类型。这 样,产品经理就可以把概率分布应用于日常的工作中。

伯努利分布:也可以叫做零一分布。如果我们只进行一次实验,并且这个实验只有两个结果,分别记为 0、1。比如抛一次硬币。

二项分布: n 次相互独立的伯努利实验中,结果为 0 的次数的离散概率分布。你也可以理解为,抛 n 次硬币,出现正面次数的概率的分布。

泊松分布:单位时间内,随机事件发生的次数。 比如,我们的频道页平均每分钟就有 2000 次访问,那如果让我们计算出下一分钟能够有 4000 次访问的概率,这个结果就是泊松分布。

正态分布:也叫高斯分布。正态分布的曲线特点是两头低、中间高,左右对称,所以我们也经常叫它钟形曲线。在现实生活中,人的很多特质都符合正态分布,比如人的身高、体重、运动量、智力、收 入、甚至信用情况等等。

模型构建、算法知识以及模型验收

只做大概介绍,后面会有专题详细介绍。

一个模型构建的整体流程,一共包括五个阶段,分别为模型设计、特征工程、模型训练、模型验证,以及模型融合。这五个阶段完成之后,模型就会交付到产品端了。

建模的过程实际上就是应用某个算法技术来实现一个模型的过程,这其中最重要的,就是 我们选择的是什么算法。

模型相关技术名词

偏差:模型的预测结果和实际的结果的偏离程度。

欠拟合(高偏差):如果偏差比较大,就说明模型的拟合程度比较差,也就是模型预测不准。造成欠拟合的原因可能是特征少或者模型训练不足。

方差:模型在不同测试样本上表现的稳定程度。

过拟合(高方差):模型效果不稳定,在一部分数据上表现好,在另一部分数据上表现差。假设一个分类模型,在不同样本上测试,得到的 KS 值有时候是 20,有时候是 40,这就说明这个模型方差偏大,过拟合。造成过拟合的原因可能是特征过多或者训练集不够。

特征数据清洗:对数据进行清洗去掉重复值、干扰数据,以及填充缺失值。

除此之外,数据有时候还需要进行数据变换:处理成方便模型使用的数据形式。举个例子,我们需要使用用户的身高作为模型特征,但是有的数据是用厘米作单位,有的数据会 使用米作单位。这个时候,我们就需要使用归一化,把数据的单位统一成米或者厘米。归一化也是数据变换最主要的手段。

训练集是让机器学习的样本集合,用来拟合模型。

验证集是模型训练过程中,用来对模型性能做初步的评估,用于模型参数调优。

测试集是最终用来评估模型效果的。

跨时间测试:也叫 OOT 测试,测量模型在时间上的稳定性。

回溯测试:用真实的、过去一段时间的数据,构造出一个模拟的环境(回溯环境),让模型在历史的那段环境中运行,得到历史某个时间点的模型结果。回溯测试在量化投资中的应用比较广泛。

联合建模:使用三方公司(如银联、运营商、电商)的数据,在对方的环境下部署一个模型,然后我们通过接口调用这个模型的结果,再把结果融合到我们自己的模型上。通过这种方式,可以弥补我们自有业务中数据不足的问题。 但是联合建模会有一个弊端,就是当我们使用三方公司的数据建模之后,在调用的时候, 必须传入一个主键来获得模型结果,这个主键如果是用户手机号,身份证号等敏感信息, 就会有个人信息泄露的风险。

联邦学习:特殊的联合建模,或者一种分布式的模型部署方式。使用联邦学习之后,我们调用部署在第三方模型的时候,输入的就不是具体的业务数据而是模型参数,这样就不会有个人信息外传的风险了。目前, 蚂蚁、腾讯、京东、微众银行,它们各自都有很成熟的联邦学习解决方案了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值