1、logistic回归的优缺点及适用数据类型:
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
适用数据类型:数值型和标称型数据。
2、如何实现logistic回归分类器:
在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代入sigmoid函数中,进而得到一个范围在0~1之间的数值,所要做的工作主要是确定最佳回归系数是多少,如何确定它们的大小。
3、基于最优化方法的最佳回归系数确定:
a)了解梯度上升法。
b)训练算法:使用梯度上升找到最佳参数。
b-2)训练算法:随机梯度上升。
4、使用logistic回归估计马疝病的死亡率:
a)准备数据:处理数据中的缺失值-①使用可用特征的均值来填补缺失值。②使用特殊值来填补缺失值如-1.③忽略有缺失值的样本。④使用相似样本的均值添补缺失值。⑤使用另外的机器学习算法预测缺失值。一般把缺失值设置为0比较好,因为这样不会影响权重因子,并且sigmoid(0)=0.5
表示它对结果的预测不具有任何倾向性。
b)测试算法:用logistic回归进行分类:其中有这么一段代码:h = sigmoid(data_mat * weights); err = (label_mat - h); weights = weights + alpha * data_mat.transpose() * err;这段代码就是用来更新weight的,其中梯度那里是http://blog.csdn.net/whai362/article/details/51860379 这么求得的。