1.首先对于一个样例来说,我们先分析得出它的因变量(各因变量之间彼此不相关)。对该样例的各个因变量已知的数据集合我们称之为样本数据(若因变量有m个,则样本数据是m维的);对我们想要得到或者预测出的数据称之为输出数据;一般通过一个函数来拟合已知的样本数据和输出数据,从而在输入新的训练数据的时候得到未知的输出数据,我们把这个函数叫做预测函数(or假设or模型)。
2.logistic回归是一个回归模型,主要用来解决二分类或多分类问题,,是在线性回归的基础上加入了一个函数映射。因为用线性来划分数据间边界的公式为 而它不足确切的描述和解决二值分类问题,所以采用logistic模型先将输入数据(特征)线性求和,再投影到0到1上,值为0.5到1代表是,0到0.5代表不是。
3.接下来要估计参数theta的值:
(1)最大似然法:在已知样本的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数。