3、机器学习-Logistic Regression and Regularization

机器学习-Logistic Regression and Regularization

本文以Rachel-Zhang“美女”的网上博文 Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization为主要阅读材料,外加Andrew Ng.老师的lecture6和lecture7补充材料以解决阅读时不理解的问题。
在前面,我首先提出几个问题以理清自己的思路:
    -为什么机器学习能够通过对训练数据的学习提高计算机程序的性能?
    -机器学习是怎样提高计算机程序的性能的?(从数据中学习模型,该模型能够很好的拟合“未来的数据”)
    -训练数据在机器学习过程中充当的作用是啥?(为已知量,用来求模型参数)
    -假设模型h在机器学习中扮演怎样的角色?(拟合或者分割训练数据,拟合或者分割测试数据)
    -如何选择代价函数,它的选择需要考虑的因素?(实际问题、模型、目标值、学习算法)
    -学习算法怎样选择,它跟那些因素有关?(时间复杂度、空间复杂空、计算的速度)
    -为什么逻辑回归的代价函数是分段函数?此分段函数跟学习算法关系?(带有不同标签的训练数据将选择不同的代价函数)
上面的问题涉及到机器学习的本质问题。关于这个问题的解决可以查看资料 Stanford机器学习---第一讲. Linear Regression with one variable 和Andrew Ng.的lecture1。


假设模型h主要根据这几个因素进行分类:
-变量的个数(输入空间)
  一个变量(实数)
  多个变量(多维空间)
-因变量跟自变量的关系(映射|线性变换)
 线性关系
 非线性关系
-因变量的取值范围(输出空间)
 实数(回归)
 0<=y<=1
 0和1(Logistic 回归,二值分类)

     本文由多维线性回归模型引出的逻辑的回归。逻辑回归是多线性回归的函数经过值一个阀值进行分类得出的。从数字角度看,逻辑回归是一个复合函数,它是经过两个映射得出的。首先从 多特征空间映射到一维的 输出空间一维实数空间),再由 一维实数空间在选择某个阀值的情况下映射到“ 二值空间”。    

    

选择阀值:0.5



    代价函数引进的目的为是求解假设模型的参数,最终求解出模型。代价函数主要跟假设的模型、目标值有关。其中的假设模型的具体形式则跟实际上的问题、训练的数据、训练方法的选择有关。
实际问题:二值分类
训练数据:带有m个有标签的n个特征的样本集


代价函数选择分析:

选择代价函数第一种情况的y=1分析:

选择代价函数的第二种情况y=0分析:


     
    机器学习之所以能够提高计算机程序的性能,是因为在给定训练数据的情况下,假设模型可以通过 学习算法不断逼近目标值,最好可以更好 拟合未来的数据,或者将未来的数据划分成几个“数据块”- 分类

直线决策边界(分类):
   
圆形决策边界(分类):

逻辑回归模型的代价函数为什么是分段函数-带有不同标签的训练数据选择不同的代价函数进行学习。

     
引入“正规化”的目的是解决模型过拟合的现象。过拟合就是模型可完全拟合训练数据或者100%正确分类训练数据。而对测试数据的拟合或者分类相当差。
在线代中,正规化跟矩阵是否可逆有联系,线性相关,线性无关;在高等数学中,正规化跟变量的个数有关,多维空间。
解决过拟合的方法:
1)减少特征的个数
2)正规化
    
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值