Udacity课程机器学习方向笔记（2）监督学习

最新推荐文章于 2019-04-22 17:58:34 发布

yeva_o

最新推荐文章于 2019-04-22 17:58:34 发布

阅读量355

点赞数

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Evaooooes/article/details/89404745

版权

学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

课程2：监督学习
lesson 1	线性回归
分类和回归的主要区别在于：在分类中，我们预测一个状态，在回归中，我们预测一个值。我们将从线性回归开始，然后我们将学习一些处理非线性问题的方法。	线性回归技巧：绝对值技巧、平方技巧为了降低误差，使用梯度下降法均方误差（实际上是二次函数）与总平方误差（或绝对误差）的选择：总平方误差是每个点的误差之和，均方误差是这些误差的平均值。总平方误差是多个均方误差相加的结果，因为 M = mT.M=mT.因此，既然导数是线性方程， TT 的梯度也是 mm 乘以 MM 的梯度。但是，梯度下降步骤包括减去误差的梯度乘以学习速率 \alphaα。因此，选择均方误差还是总平方误差只是选择不同的学习速率。批量梯度下降法与随机梯度下降法逐个地在每个数据点应用平方（或绝对）误差，并重复这一流程很多次。（随机梯度下降法）同时在每个数据点应用平方（或绝对）误差，并重复这一流程很多次。（批量梯度下降法）在实际运用中，这两种都不用，因为数据十分庞大的情况下，两种方法计算都很慢。最佳方式是将数据拆分成很多小批次，使用每个批次更新权重，叫小批次梯度下降法。 PS. 用sklearn做线性回归时，model.fit(X,y)中的X，y必须是矩阵形式！如果X=data['label']或X=data[:,2]，会报错 ValueError: Found arrays with inconsistent numbers of samples 改成： X=data[:,2：3] 或者X=data[['label']]，虽然只是一列数据但最终是以矩阵形式呈现的。正则化（解决过拟合） L1正则化：模型系数绝对值相加 L2正则化：模型系数平方相加对比：L2计算效率高，只有数据稀疏时（列包含很多0），L1正则化比L2更快；L1最大的好处是提供特征选择神经网络回归神经网络一般用来分类，最后是sigmod函数，输出是0到1间的数字；去掉最后sigmod可以用来做回归。神经网络可视化效果： http://jalammar.github.io/visual-interactive-guide-basics-neural-networks/
lesson 2	感知器算法（用于分类）
感知器是神经网络的基础构成组件。	感知器可以看作节点的结合：第一个节点计算线性方程和权重输入；第二个节点对结果应用阶跃函数（保证输出结果是1或0，对应分类中的是或否）感知器技巧：整个数据集中的每一个点都会把分类的结果提供给感知器（分类函数），并调整感知器。——这就是计算机在神经网络算法中，找寻最优感知器的原理。调整感知器：假设是一条直线，用参数加（减）乘以了学习速率的该点的坐标（如需要加上标准量1），学习速率大都为1到0内的小数，防止调整幅度过大。
leeson 3	决策树
	熵集合越稳固或越具有同类性，熵越低。熵公式和比积好（对数和）信息增益：就是熵的变化值，越大决策树效果越好在决策树的每个节点处，我们可以计算父节点处数据的熵，然后计算两个子结点的熵，父结点的熵与子结点熵平均值之前的差值为信息增益。随机森林：决策树经常会过拟合，。随机森林是随机选择数据信息构建多个决策树（相对小的），然后判断新用户时，选择多个决策树预测出结果最多的那个。决策树的超参数：最大深度：树根和叶子之前的最大长度，当决策树最大深度为k时，最多拥有2^k片叶子。每片叶子的最小样本数：如果分裂节点时，一片叶子上有1个样本，另一片叶子上99个样本，会造成资源和时间的浪费，这时可以规定每片叶子的最小样本数。当每片叶子的样本数量较小时，叶子上的样本数量也有可能过于稀少，此时模型将记忆数据，也就是过拟合。当每片叶子的样本数量较大时，决策树能够获得足够的弹性进行构建，这也许会导致欠拟合。每次分裂的最小样本数，应用在节点分裂中。最大特征数：有时，我们会遇到特征数量过于庞大，而无法建立决策树的情况。在这种状况下，对于每一个分裂，我们都需要检查整个数据集中的每一个特征。这种过程极为繁琐。而解决方案之一是限制每个分裂中查找的特征数。如果这个数字足够庞大，我们很有可能在查找的特征中找到良好特征（尽管也许并不是完美特征）。然而，如果这个数字小于特征数，这将极大加快我们的计算速度。
lesson 4	朴素贝叶斯
一种概率算法	如何将贝叶斯应用到机器学习中——重复朴素贝叶斯算法中朴素的含义：假设概率相互独立(即使不成立）以垃圾邮件分类为例（识别垃圾邮件是二元分类问题，因为邮件要么“是垃圾邮件（'Spam'）”，要么“不是垃圾邮件（'Not Spam'）”，不会再有第三种情况。此外，这是监督学习问题，因为我们知道要预测什么。我们将向模型提供带有标签的数据集，使其从中学习规律并作出未来预测。）颠倒条件，获得结果做朴素假设，将其拆分为多个简单因子的积标准化数据垃圾邮件分类项目： https://github.com/udacity/machine-learning/tree/master/projects/practice_projects/naive_bayes_tutorial PS. 1.Scikit-learn 只处理数字值，因此如果标签值保留为字符串，scikit-learn 会自己进行转换（更确切地说，字符串标签将转型为未知浮点值）。如果标签保留为字符串，模型依然能够做出预测，但是稍后计算效果指标（例如计算精确率和召回率分数）时可能会遇到问题。因此，为了避免稍后出现意外的陷阱，最好将分类值转换为整数，再传入模型中。 2.使用scikit-learn可以简洁实现BoW概念。导入 sklearn.feature_extraction.text.CountVectorizer 方法并创建一个实例 3.由于语言本身的原因，肯定有某些值比其他值更常见。例如“is”、“the”、“an”等单词、代词、语法结构等会使矩阵出现偏斜并影响到分析结果。有几种方式可以减轻这种情况。一种方式是使用 stop_words 参数并将其值设为 english。这样会自动忽略 scikit-learn 中的内置英语停用词列表中出现的所有单词（来自输入文本）。 4.sklearn 具有多个朴素贝叶斯实现，这样我们就不用从头进行计算。我们将使用 sklearns 的 sklearn.naive_bayes 方法对我们的数据集做出预测。具体而言，我们将使用多项式朴素贝叶斯实现。这个分类器适合分类离散特征（例如我们的单词计数文本分类）。它会将整数单词计数作为输入。另一方面，高斯朴素贝叶斯更适合连续数据，因为它假设输入数据是高斯（正态）分布。 5. 准确率衡量的是分类器做出正确预测的概率，即正确预测的数量与预测总数（测试数据点的数量）之比。精确率指的是分类为垃圾信息的信息实际上是垃圾信息的概率，即真正例（分类为垃圾内容并且实际上是垃圾内容的单词）与所有正例（所有分类为垃圾内容的单词，无论是否分类正确）之比，换句话说，是以下公式的比值结果： [True Positives/(True Positives + False Positives)] 召回率（敏感性）表示实际上为垃圾信息并且被分类为垃圾信息的信息所占比例，即真正例（分类为垃圾内容并且实际上是垃圾内容的单词）与所有为垃圾内容的单词之比，换句话说，是以下公式的比值结果： [True Positives/(True Positives + False Negatives)] 在scikit-learn直接通过公式accuracy_score/precision_score/recall_score/f1_score可得
lesson 5	支持向量机
非常强大的分类算法，不仅时分类数据，会寻找最佳潜在界线	分类误差+边际误差=支持向量机误差，通过梯度下降法减小误差https://www.cnblogs.com/paulonetwo/p/9971010.html （边际误差计算） C参数，分类误差前的一个参数（超参数，使用网格搜索等技巧）：c参数较小，则间隔较大，分类误差较多；C参数较大，分类更加准确多项式内核多项式核函数就是一个超参数，可以通过训练它找到可能的最佳模型 SVC超参数： C：C 参数。 kernel：内核。最常见的内核为 'linear'、'poly' 和 'rbf'。 degree：如果内核是多项式，则此参数为内核中的最大单项式次数。 gamma：如果内核是径向基函数，则此参数为 γ 参数。
lesson 6	集成方法
Bagging Boosting	sklearn中的AdaBoost：超参数： base_estimator：弱学习器使用的模型（切勿忘记导入该模型） n_estimators：使用弱学习器的最大数量相关论文： https://people.cs.pitt.edu/~milos/courses/cs2750/Readings/boosting.pdf https://cseweb.ucsd.edu/~yfreund/papers/IntroToBoosting.pdf
总结Summary
朴素贝叶斯是贝叶斯定理的延伸。当我们有多个特征时，假定这些特征相互独立。相比 L2 范数正则化，L1 范数正则化的优势是它将许多特权值转换为0，只留下最重要的权值，以帮助筛选特征。在随机森林分类器中，增加树的数量使得每棵决策树学习训练数据的某个部分，从而减少数据过拟合的可能性。决策树、随机森林、提升属可以用于非二元分类。过拟合和正则化的补充：过拟合就是所谓的模型对可见的数据过度自信, 非常完美的拟合上了这些数据, 如果具备过拟合的能力, 那么这个方程就可能是一个比较复杂的非线性方程 , 正是因为这里的 x^3 和 x^2 使得这条虚线能够被弯来弯去, 所以整个模型就会特别努力地去学习作用在 x^3 和 x^2 上的 c d 参数. 但是我们期望模型要学到的却是这条蓝色的曲线. 因为它能更有效地概括数据.而且只需要一个 y=a+bx 就能表达出数据的规律. 或者是说, 蓝色的线最开始时, 和红色线同样也有 c d 两个参数, 可是最终学出来时, c 和 d 都学成了0, 虽然蓝色方程的误差要比红色大, 但是概括起数据来还是蓝色好. 那我们如何保证能学出来这样的参数呢? 这就是 l1 l2 正则化出现的原因啦. 过拟合也就是泛化能力差，如果有个新的之前没见过的值输入，过拟合的模型就会得到一个非常不好的预测值。对于刚刚的线条, 我们一般用这个方程来求得模型 y(x) 和真实数据 y 的误差, 而 L1 L2 就只是在这个误差公式后面多加了一个东西, 让误差不仅仅取决于拟合数据拟合的好坏, 而且取决于像刚刚 c d 那些参数的值的大小. 如果是每个参数的平方, 那么我们称它为 L2正则化, 如果是每个参数的绝对值, 我们称为 L1 正则化. 核心思想 L2正则化来探讨一下, 机器学习的过程是一个通过修改参数 theta 来减小误差的过程, 可是在减小误差的时候非线性越强的参数, 比如在 x^3 旁边的 theta 4 就会被修改得越多, 因为如果使用非线性强的参数就能使方程更加曲折, 也就能更好的拟合上那些分布的数据点. Theta 4 说, 瞧我本事多大, 就让我来改变模型, 来拟合所有的数据吧, 可是它这种态度招到了误差方程的强烈反击, 误差方程就说: no no no no, 我们是一个团队, 虽然你厉害, 但也不能仅仅靠你一个人, 万一你错了, 我们整个团队的效率就突然降低了, 我得 hold 住那些在 team 里独出风头的人. 这就是整套正规化算法的核心思想想象现在只有两个参数 theta1 theta2 要学, 蓝色的圆心是误差最小的地方, 而每条蓝线上的误差都是一样的. 正则化的方程是在黄线上产生的额外误差(也能理解为惩罚度), 在黄圈上的额外误差也是一样. 所以在蓝线和黄线交点上的点能让两个误差的合最小. 这就是 theta1 和 theta2 正则化后的解. 要提到另外一点是, 使用 L1 的方法, 我们很可能得到的结果是只有 theta1 的特征被保留, 所以很多人也用 l1 正则化来挑选对结果贡献最大的重要特征. 但是 l1 的结并不是稳定的. 比如用批数据训练, 每次批数据都会有稍稍不同的误差曲线 L2 针对于这种变动, 白点的移动不会太大, 而 L1的白点则可能跳到许多不同的地方 , 因为这些地方的总误差都是差不多的. 侧面说明了 L1 解的不稳定性最后,为了控制这种正规化的强度, 我们会加上一个参数 lambda, 并且通过交叉验证 cross validation 来选择比较好的 lambda. 这时, 为了统一化这类型的正则化方法, 我们还会使用 p 来代表对参数的正则化程度. 这就是这一系列正则化方法的最终的表达形式啦.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Udacity课程机器学习方向笔记（2）监督学习

课程2：监督学习 lesson 1 线性回归分类和回归的主要区别在于：在分类中，我们预测一个状态，在回归中，我们预测一个值。我们将从线性回归开始，然后我们将学习一些处理非线性问题的方法。线性回归技巧：绝对值技巧、平方技巧为了降低误差，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。