有时候我们遇到的分类问题不是线性的,属于非线性的,比如下面的问题,那么我们如何思考呢?
编辑
添加图片注释,不超过 140 字(可选)
首先介绍一些简单的概念
逻辑回归定义:为了求出正确的参数θ而定义的目标函数
决策边界:上图中的虚线,也会是我们训练过程中产生的函数线;决策边界就是我们优化参数想达到的目标
分类数值:自定义的一个概念,不是专业学术用语,简单理解为分类标签
sigmoid函数:s型曲线的函数,因变量在0-1之间,常被用作神经网络激活函数
eg:如何分类横向的图片和纵向的图片?(用概率算法处理)
设定:横向图片分类数值为1,纵向图片分类数值为0 为什么是1和0?:数值大小无限定,1和0更方便后面的计算 解释:在线性可分案例中,θ参数是一个具体的数值(斜率、截距);在向量分类例子中,θ参数是法向量;在此,θ参数是概率 给出概率表达式,即sigmoid函数:
编辑
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
等于
添加图片注释,不超过 140 字(可选)
给出图像:
编辑
添加图片注释,不超过 140 字(可选)
目标函数:
编辑
添加图片注释,不超过 140 字(可选)
表示给出x值时,多大的概率y=1(y=1表示图像是横向的) 函数图像想表达的目标:
编辑
添加图片注释,不超过 140 字(可选)
用θx替代f(x):
编辑
添加图片注释,不超过 140 字(可选)
拟定θ=(-100,2,1),并假设是横向的图像
编辑
添加图片注释,不超过 140 字(可选)
得到x1与x2图像(是在假设的θ值下面,算出来的函数图像,明显看出来是不符合实际分类标准的)
编辑
添加图片注释,不超过 140 字(可选)
接下来,通过微分求参数的更新表达式,最终得到正确的参数θ(逻辑回归) 确定分类函数标准
考虑因素
-
确定分类函数的标准(即训练数据标签)与f(θx)的关系
-
训练数据间的相互影响关系
在eg中,我们希望的是每条训练数据(图像),是横向或纵向数据的概率最大;数据相互独立 给出整体概率函数(又称为似然函数):
编辑
添加图片注释,不超过 140 字(可选)
y:1表示横向图像,0表示纵向图像(在这里参与了条件概率和指数) i:索引序号,不参与计算 目标:使得L(θ)概率最大化(注意:在之前文章中最速下降法,收集的是误差所以需要最小化) 处理L(θ),取对数log 为什么取对数?:求最大值需要微分,而乘法的计算复杂度太高,所以需要处理成加法 为什么是log函数:因为log是单调递增函数,对原函数的特征影响小
编辑切换为居中
添加图片注释,不超过 140 字(可选)
对似然函数L(θ)微分
编辑切换为居中
添加图片注释,不超过 140 字(可选)
求导步骤
编辑切换为居中
添加图片注释,不超过 140 字(可选)
更新表达式:(最小化需要按照与微分符号相反的方向移动,最大化需要按照与微分符号相同的方向移动)
编辑
添加图片注释,不超过 140 字(可选)
最后训练数据通过更新表达式,持续优化参数