逻辑回归可用来解决{0,1}二分类问题,例入根据信用卡用户的性别、年龄、学历、收入等特征预测是否会逾期,利用自然语言处理技术预测文本情感(用词向量表示的文本本质也是具有多维的特征)。对于包含多个特征的样本数据,如果用特征变量X对目标变量y进行多元线性回归, 得到的将是
的值域。这显然不能解决二分类的问题。因此需要对数据进一步转换,将目标变量映射到(0,1)区间。这边引入sigmod函数
sigmod函数图像如下:
该函数的定义域属于R, 值域为(0,1),且在0附近函数的导数变化最大,对于微小的变化很敏感,而在两端的区域对数值变化不敏感且很快靠近0和1,因此引入该函数可增强模型的鲁棒性(Robust) 。将多元线性回归和sigmod函数结合,以概率的形式解释分类问题,可得到如下公式。
将两个公式结合成一个表达式:
截止目前,分类问题变成了求解概率的问题,即已知样本出现的情况下,求解模型的参数&#x