Udacity课程机器学习方向笔记(2)监督学习

 

课程2:监督学习

lesson 1 

线性回归

  • 分类和回归的主要区别在于:在分类中,我们预测一个状态,在回归中,我们预测一个。 我们将从线性回归开始,然后我们将学习一些处理非线性问题的方法。

  • 线性回归技巧:绝对值技巧、平方技巧

  • 为了降低误差,使用梯度下降法

  • 均方误差(实际上是二次函数)与总平方误差(或绝对误差)的选择:

总平方误差是每个点的误差之和,均方误差是这些误差的平均值。

总平方误差是多个均方误差相加的结果,因为

M = mT.M=mT.因此,既然导数是线性方程, 

TT 的梯度也是 mm 乘以 MM 的梯度。

但是,梯度下降步骤包括减去误差的梯度乘以学习速率 \alphaα。因此,选择均方误差还是总平方误差只是选择不同的学习速率。

  • 批量梯度下降法与随机梯度下降法

逐个地在每个数据点应用平方(或绝对)误差,并重复这一流程很多次。(随机梯度下降法)

同时在每个数据点应用平方(或绝对)误差,并重复这一流程很多次。(批量梯度下降法)

在实际运用中,这两种都不用,因为数据十分庞大的情况下,两种方法计算都很慢。最佳方式是将数据拆分成很多小批次,使用每个批次更新权重,叫小批次梯度下降法。

 

 

PS. 用sklearn做线性回归时,model.fit(X,y)中的X,y必须是矩阵形式!

如果X=data['label']或X=data[:,2],会报错 ValueError: Found arrays with inconsistent numbers of samples

改成: X=data[:,2:3] 或者X=data[['label']],虽然只是一列数据但最终是以矩阵形式呈现的。

 

  • 正则化(解决过拟合)

L1正则化:模型系数绝对值相加

L2正则化:模型系数平方相加

对比:L2计算效率高,只有数据稀疏时(列包含很多0),L1正则化比L2更快;L1最大的好处是提供特征选择

  • 神经网络回归

神经网络一般用来分类,最后是sigmod函数,输出是0到1间的数字;去掉最后sigmod可以用来做回归。

神经网络可视化效果:

http://jalammar.github.io/visual-interactive-guide-basics-neural-networks/

 

lesson 2 

感知器算法(用于分类)

感知器是神经网络的基础构成组件。

  • 感知器可以看作节点的结合:第一个节点计算线性方程和权重输入;第二个节点对结果应用阶跃函数(保证输出结果是1或0,对应分类中的是或否)

  • 感知器技巧: 整个数据集中的每一个点都会把分类的结果提供给感知器(分类函数),并调整感知器。——这就是计算机在神经网络算法中,找寻最优感知器的原理。 调整感知器:假设是一条直线,用参数加(减)乘以了学习速率的该点的坐标(如需要加上标准量1),学习速率大都为1到0内的小数,防止调整幅度过大。

leeson 3 

决策树

 

  • 熵   集合越稳固或越具有同类性,熵越低。

  • 熵公式 和比积好(对数和)

  • 信息增益:就是熵的变化值,越大决策树效果越好

        在决策树的每个节点处,我们可以计算父节点处数据的熵,然后计算两个子结点的熵,父结点的熵与子结点熵平均值之前的差值为信息增益。

  • 随机森林:决策树经常会过拟合,。随机森林是随机选择数据信息构建多个决策树(相对小的),然后判断新用户时,选择多个决策树预测出结果最多的那个。

  • 决策树的超参数:

  1. 最大深度:树根和叶子之前的最大长度,当决策树最大深度为k时,最多拥有2^k片叶子。

  2. 每片叶子的最小样本数:如果分裂节点时,一片叶子上有1个样本,另一片叶子上99个样本,会造成资源和时间的浪费,这时可以规定每片叶子的最小样本数。

           当每片叶子的样本数量较小时,叶子上的样本数量也有可能过于稀少,此时模型将记忆数据,也就是过拟  

           合。当每片叶子的样本数量较大时,决策树能够获得足够的弹性进行构建,这也许会导致欠拟合。

  1. 每次分裂的最小样本数,应用在节点分裂中。

  2. 最大特征数: 有时,我们会遇到特征数量过于庞大,而无法建立决策树的情况。在这种状况下,对于每一个分裂,我们都需要检查整个数据集中的每一个特征。这种过程极为繁琐。而解决方案之一是限制每个分裂中查找的特征数。如果这个数字足够庞大,我们很有可能在查找的特征中找到良好特征(尽管也许并不是完美特征)。然而,如果这个数字小于特征数,这将极大加快我们的计算速度。

lesson 4

朴素贝叶斯

一种概率算法

  • 如何将贝叶斯应用到机器学习中——重复

  • 朴素贝叶斯算法中朴素的含义:假设概率相互独立(即使不成立) 

以垃圾邮件分类为例( 识别垃圾邮件是二元分类问题,因为邮件要么“是垃圾邮件('Spam')”,要么“不是垃圾邮件('Not Spam')”,不会再有第三种情况。此外,这是监督学习问题,因为我们知道要预测什么。我们将向模型提供带有标签的数据集,使其从中学习规律并作出未来预测。)

  1. 颠倒条件,获得结果

  2. 做朴素假设,将其拆分为多个简单因子的积

  3. 标准化数据

垃圾邮件分类项目: https://github.com/udacity/machine-learning/tree/master/projects/practice_projects/naive_bayes_tutorial

 

PS. 

1.Scikit-learn 只处理数字值,因此如果标签值保留为字符串,scikit-learn 会自己进行转换(更确切地说,字符串标签将转型为未知浮点值)。

如果标签保留为字符串,模型依然能够做出预测,但是稍后计算效果指标(例如计算精确率和召回率分数)时可能会遇到问题。 因此,为了避免稍后出现意外的陷阱,最好将分类值转换为整数,再传入模型中。

2.使用scikit-learn可以简洁实现BoW概念。导入 sklearn.feature_extraction.text.CountVectorizer 方法并创建一个实例

3.由于语言本身的原因,肯定有某些值比其他值更常见。例如“is”、“the”、“an”等单词、代词、语法结构等会使矩阵出现偏斜并影响到分析结果。

有几种方式可以减轻这种情况。一种方式是使用 stop_words 参数并将其值设为 english。这样会自动忽略 scikit-learn 中的内置英语停用词列表中出现的所有单词(来自输入文本)。

4.sklearn 具有多个朴素贝叶斯实现,这样我们就不用从头进行计算。我们将使用 sklearns 的 sklearn.naive_bayes 方法对我们的数据集做出预测。

具体而言,我们将使用多项式朴素贝叶斯实现。这个分类器适合分类离散特征(例如我们的单词计数文本分类)。它会将整数单词计数作为输入。另一方面,高斯朴素贝叶斯更适合连续数据,因为它假设输入数据是高斯(正态)分布。

 

5.** 准确率 **衡量的是分类器做出正确预测的概率,即正确预测的数量与预测总数(测试数据点的数量)之比。

** 精确率 **指的是分类为垃圾信息的信息实际上是垃圾信息的概率,即真正例(分类为垃圾内容并且实际上是垃圾内容的单词)与所有正例(所有分类为垃圾内容的单词,无论是否分类正确)之比,换句话说,是以下公式的比值结果:

[True Positives/(True Positives + False Positives)]

** 召回率(敏感性)**表示实际上为垃圾信息并且被分类为垃圾信息的信息所占比例,即真正例(分类为垃圾内容并且实际上是垃圾内容的单词)与所有为垃圾内容的单词之比,换句话说,是以下公式的比值结果:

[True Positives/(True Positives + False Negatives)]

scikit-learn直接通过公式accuracy_score/precision_score/recall_score/f1_score可得

lesson 5

支持向量机

非常强大的分类算法,不仅时分类数据,会寻找最佳潜在界线

  • 分类误差+边际误差=支持向量机误差,通过梯度下降法减小误差https://www.cnblogs.com/paulonetwo/p/9971010.html (边际误差计算)

  • C参数,分类误差前的一个参数(超参数,使用网格搜索等技巧):c参数较小,则间隔较大,分类误差较多;C参数较大,分类更加准确

  • 多项式内核 多项式核函数就是一个超参数,可以通过训练它找到可能的最佳模型

  • SVC超参数:

C:C 参数。

kernel:内核。最常见的内核为 'linear'、'poly' 和 'rbf'。

degree:如果内核是多项式,则此参数为内核中的最大单项式次数。

gamma:如果内核是径向基函数,则此参数为 γ 参数。

lesson 6

集成方法

  • Bagging

  • Boosting

sklearn中的AdaBoost:超参数:

base_estimator:弱学习器使用的模型(切勿忘记导入该模型)

n_estimators:使用弱学习器的最大数量

相关论文: https://people.cs.pitt.edu/~milos/courses/cs2750/Readings/boosting.pdf

                  https://cseweb.ucsd.edu/~yfreund/papers/IntroToBoosting.pdf

总结Summary

  • 朴素贝叶斯是贝叶斯定理的延伸。当我们有多个特征时,假定这些特征相互独立。

  • 相比 L2 范数正则化,L1 范数正则化的优势是它将许多特权值转换为0,只留下最重要的权值,以帮助筛选特征。

  • 在随机森林分类器中,增加树的数量使得每棵决策树学习训练数据的某个部分,从而减少数据过拟合的可能性。

  • 决策树、随机森林、提升属可以用于非二元分类。

  • 过拟合和正则化的补充:

          

        过拟合就是所谓的模型对可见的数据过度自信, 非常完美的拟合上了这些数据, 如果具备过拟合的能力, 那么这个方程就可能是一个比较复杂的非线性方程 , 正是因为这里的 x^3 和 x^2 使得这条虚线能够被弯来弯去, 所以整个模型就会特别努力地去学习作用在 x^3 和 x^2 上的 c d 参数. 但是我们期望模型要学到的却是 这条蓝色的曲线. 因为它能更有效地概括数据.而且只需要一个 y=a+bx 就能表达出数据的规律. 或者是说, 蓝色的线最开始时, 和红色线同样也有 c d 两个参数, 可是最终学出来时, c 和 d 都学成了0, 虽然蓝色方程的误差要比红色大, 但是概括起数据来还是蓝色好. 那我们如何保证能学出来这样的参数呢? 这就是 l1 l2 正则化出现的原因啦.

 

        过拟合也就是泛化能力差,如果有个新的之前没见过的值输入,过拟合的模型就会得到一个非常不好的预测值。

 

           

 

        对于刚刚的线条, 我们一般用这个方程来求得模型 y(x) 和 真实数据 y 的误差, 而 L1 L2 就只是在这个误差公式后面多加了一个东西, 让误差不仅仅取决于拟合数据拟合的好坏, 而且取决于像刚刚 c d 那些参数的值的大小. 如果是每个参数的平方, 那么我们称它为 L2正则化, 如果是每个参数的绝对值, 我们称为 L1 正则化. 

 

  核心思想

            

       L2正则化来探讨一下, 机器学习的过程是一个 通过修改参数 theta 来减小误差的过程, 可是在减小误差的时候非线性越强的参数, 比如在 x^3 旁边的 theta 4 就会被修改得越多, 因为如果使用非线性强的参数就能使方程更加曲折, 也就能更好的拟合上那些分布的数据点. Theta 4 说, 瞧我本事多大, 就让我来改变模型, 来拟合所有的数据吧, 可是它这种态度招到了误差方程的强烈反击, 误差方程就说: no no no no, 我们是一个团队, 虽然你厉害, 但也不能仅仅靠你一个人, 万一你错了, 我们整个团队的效率就突然降低了, 我得 hold 住那些在 team 里独出风头的人. 这就是整套正规化算法的核心思想

 

         

 

       想象现在只有两个参数 theta1 theta2 要学, 蓝色的圆心是误差最小的地方, 而每条蓝线上的误差都是一样的. 正则化的方程是在黄线上产生的额外误差(也能理解为惩罚度), 在黄圈上的额外误差也是一样. 所以在蓝线和黄线 交点上的点能让两个误差的合最小. 这就是 theta1 和 theta2 正则化后的解. 要提到另外一点是, 使用 L1 的方法, 我们很可能得到的结果是只有 theta1 的特征被保留, 所以很多人也用 l1 正则化来挑选对结果贡献最大的重要特征. 但是 l1 的结并不是稳定的. 比如用批数据训练, 每次批数据都会有稍稍不同的误差曲线

           

      L2 针对于这种变动, 白点的移动不会太大, 而 L1的白点则可能跳到许多不同的地方 , 因为这些地方的总误差都是差不多的. 侧面说明了 L1 解的不稳定性

 

           

      最后,为了控制这种正规化的强度, 我们会加上一个参数 lambda, 并且通过 交叉验证 cross validation 来选择比较好的 lambda. 这时, 为了统一化这类型的正则化方法, 我们还会使用 p 来代表对参数的正则化程度. 这就是这一系列正则化方法的最终的表达形式啦.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值