2023/5/21周报生成和回归

user_s1

已于 2023-06-04 16:35:13 修改

阅读量78

点赞数

文章标签：机器学习逻辑回归算法

于 2023-05-21 20:10:32 首次发布

本文链接：https://blog.csdn.net/user_s1/article/details/130795837

版权

文章目录

摘要

本周通过神奇宝贝识别的例子进一步学习了什么是generative model，然后又通过对该模型进行改进，从而了解了Logistic Regression（逻辑回归）的概念以及所使用的Discriminative方法。

Pokemon Classification - Generative Model

Prior 只考虑水系和自然系两种
用小于400的ID标识training，大于400的ID标识testing。
Training = 79 water（水系），61 Normal（自然系）
水系概率P（C1）=79/（79+61）=0.56
自然系概率P（C2）=61/（79+61）=0.44

Probability from class - feature

使用vector（向量）来描述一只宝可梦，该vector也是一种feature。

首先考虑Defense和 SP Defense两种属性。
假设这些点服从高斯分布（正态分布）。

在这里插入图片描述

注：高斯分布

在这里插入图片描述

输入：向量x 输出：选中x的可能性
函数的形状由期望μ和矩阵∑决定。
其中期望μ为均值向量，协方差矩阵∑是对称正定矩阵。

Maximum Likelihood（最大化可能性）

在这里插入图片描述

以水系为例：
对水系的79个样品进行编号x1-x79，求出使得这个79个点可能性最高的高斯分布模型，求出此时的μ和∑，最大的μ是对x1-x79求平均值，最大的Σ如下图所示。

在这里插入图片描述

继续求出自然系的情况，得到下图所示的∑1，∑2，μ1，μ2

在这里插入图片描述

此时所有的未知数都已解出，可以对水系和自然系进行分类，如果P（C1|x）>0.5，则为水系，否则为自然系。

在这里插入图片描述

分类准确率并不能令人满意，即使考虑扩展防御和特防到七维属性，正确率依旧不高。
在这里插入图片描述

Modifying Model

对water和normal使用相同的∑，可以减少parameters的数量。此时求解μ1和
μ2的过程不变，但∑有所改变。

在这里插入图片描述

Three Steps
Function set（Model）：
在这里插入图片描述

Goodness of a function：
if P（C1|x）> 0.5，输出class 1水系，否则输出class 2 自然系。
Fine the best function：easy

修改后的模型使用七维的识别正确率提高了很多，由54%提高到73%。

在这里插入图片描述

Probability Distribution

事实上，使用哪种分布模型是根据具体问题来的。
例如，遇到binary features（0-1二元选择）应该使用伯努利分布，
如果假设所有的未知数x都是独立的，则应该使用朴素贝叶斯法。
在这里插入图片描述

Posterior Probability

在这里插入图片描述

在generative model中，预估∑1、∑2、μ1、μ2，然后得到w和b。
在这里插入图片描述

Logistic Regression（逻辑回归）

step 1：Funcion set

在这里插入图片描述

step 2：Goodness of a Function

假设生成数据基于在这里插入图片描述

当给定一组w，b的集合时，求出生成数据的可能性，找出最大的L（w，b）
和此时的w*，b*的值。

在这里插入图片描述

接下来计算cross entropy（交叉熵），

在这里插入图片描述

step 3：Find the best Function

仍然使用gradient descent找最优解：
在这里插入图片描述

logistic regression与linear regression进行对比

在这里插入图片描述

Discriminative和Generative进行对比

Discriminative：直接找w，b，挖掘数据关系，样本量越大越准确。
Generative：先找∑1、μ1、μ2，再求w，b（做了假设，例如符合高斯分布等等）

在这里插入图片描述

从结果来看，Discriminative（判别）比Generative（生成）更加准确。但Generative也有
以下优势：
当训练数据较少时表现更好，面对训练集中的错误更加健壮，prior和class-independent 可以来自不同的resources。

总结

本周所学的各种模型用到了概率论，线性代数以及微分等数学知识，还需要好好消化吸收。

user_s1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
2023/5/21周报生成和回归

本周通过神奇宝贝识别的例子进一步学习了什么是generative model，然后又通过对该模型进行改进，从而了解了Logistic Regression（逻辑回归）的概念以及所使用的Discriminative方法。本周所学的各种模型用到了概率论，线性代数以及微分等数学知识，还需要好好消化吸收。
复制链接

扫一扫