
谷歌机器学习速成课程笔记
桑榆非晚_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
谷歌机器学习速成课程笔记 5(First Step with TensorFlow-使用TensorFlow的起始步骤)
看了谷歌机器学习的视频,受益颇多,纯属想记录下免得以后忘了,٩(๑❛ᴗ❛๑)۶As we all know, TensorFlow是一个可用于构建机器学习模型的平台,但它同时也是一种基于图表的通用计算框架,可以用来编写我们想出的任何东西。TensorFlow.org的API页面中提供了可在代码中使用的低级TensorFlow运算的完整列表,其中还有多个能让我们轻松地执行常见任务...原创 2018-04-07 21:40:07 · 241 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 15(Training Neural Networks -训练神经网络)
在思考如何训练神经网络是,首先我们需要了解哪些信息是与反向传播有关的。 (我们不需要了解反向传播的实施方式/原理机制,因为tensorflow 会为我们做好) 首先,反向传播确实依赖于梯度这个概念——事物必须是可微的(函数中存在一两个小的间断点没关系)这样我们才能够使用神经网络进行学习。另外,要注意,梯度可能会消失。如果我们的网络太过深入,信噪比随着您深入模型而变差,那么学习速度可能会...原创 2018-05-29 11:43:01 · 428 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 14(Introduction of Neural Network-神经网络简介)
仍然是邮件分类问题。 如果正负样本是上图那样分布,我们可以使用特征交叉乘积轻松地对邮件分类。但是稍微复杂的分布又要怎么样呢? 分布可能很复杂,但是我们还是希望有某种方法让模型自动学习非线性规律,而不用我们手动为其指定参数,这种方法就是——深度神经网络。深度神经网络——可以非常出色地处理复杂数据(图像数据,音频数据,视频数据等)如何让模型自动学习非线性规律,而不用我们手动为其...原创 2018-05-29 10:33:23 · 209 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 10(Regularization for Simplicity-简化正则化)
之前已经讨论了如何让训练损失降到最低(也就是获取正确的样本),今天,我们来讨论且薄优质机器学习效果的第二个关键因素——正则化(概括而言,就是不要过于依赖样本)。 从以下拟合曲线我们可以看出:随着迭代次数越来越多,训练损失会越来越少,不出所料,蓝色曲线会不断下降,最终会在某种程度上收敛于底端,但另一方面,红线却在上升,而红线正是我们要关注的(因为是通过测试集出来的结果嘛)。 我们在训练集方面...原创 2018-05-23 11:10:26 · 250 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 9(Feature Crosses-特征组合)
仍然是邮件分类问题(分出垃圾邮件和非垃圾邮件):一种机智的做法就是定义一个附加特征x3原创 2018-05-16 16:52:10 · 454 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 13(Regularization for Sparsity-稀疏性正则化)
特征组合很实用但也有一些问题,尤其是将稀疏特征组合起来的时候。 (接上图)那么我们可能会遇到数百万个可能存在的字词和数百万个可能存在的视频,这些内容一旦组合起来,便会产生大量的系数,这就意味着,模型会突然增大从而占满内存,还可能减缓运行时间。 并且,尽管我们拥有大量的训练数据,但其中仍有许多组合会非常罕见,因此我们最终可能会得到一些噪声系数,并可能产生过拟合。如果产生过拟合,就要进行正则化...原创 2018-05-26 23:43:05 · 426 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 12(Classification-分类)
例如,如果邮件为垃圾邮件的概率超过.8,我们可能就会将其标记为垃圾邮件,0.8就是阈值分类。选定分类阈值后,如何评估模型质量呢?传统方法是看准确率——正确结果除以总数/正确结果所占的百分比。但是准确率虽然是一种直观且广泛使用的指标,但它也有一些重大缺陷: 假设有一个预测广告点击率的模型,并使用准确率来评估此模型的质量,但是现实中对于展示的广告,点击率通常为千分之一、万分之一甚至更...原创 2018-05-26 00:31:59 · 323 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 11(Logistic Regression-逻辑回归)
若要预测弯曲硬币正面朝上的概率,可以用什么模型呢?我们可能会使用之前用过的线性回归,但会出现一些奇怪的情况,例如——如果我们要预测的是一枚新硬币,且其质量前所未有的重又或者硬币的弯曲程度非常大,会怎么样呢?尤其是我们将预测的概率相乘,或使用这些概率来创建预期值时,我们预测的结果可能不在0~1范围内,这样的概率值就是不正常的,说明出问题了。在首次尝试时,我们可以为预测值设置上限,...原创 2018-05-25 12:55:51 · 475 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 4(Reducing Loss-降低损失)
看了谷歌机器学习的视频,受益颇多,纯属想记录下免得以后忘了,٩(๑❛ᴗ❛๑)۶如何降低损失?梯度下降法(y-y’)∧2相对于权重和偏差的倒数可以让我们了解指定样本的损失变化情况 易于计算且为凸形(一个碗的样子,只有一个最低点)因此,我们在能够尽可能降低损失的方向上反复采取小步 我们将这些小步称为梯度步长(但他们实际上是负梯度步长) 凸形 ...原创 2018-04-06 10:43:48 · 265 阅读 · 1 评论 -
谷歌机器学习速成课程笔记 3(Descending into ML-深入了解机器学习)
看了谷歌机器学习的视频,受益颇多,纯属想记录下免得以后忘了,٩(๑❛ᴗ❛๑)۶预测值与真实值 如图: 横坐标——房屋面积 纵坐标——房价 点——样本数据(给定的x值的真实结果) 直线——y = wx+b, w为斜率,b为偏差(这条线从本质上反映了这条线在预测任何给定样本时的效果如何;线上的每个点都是给定的x值的预测结果) 误差(loss)——样本数据与直线的距离(点在...原创 2018-04-05 23:24:28 · 232 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 2(Framing-框架处理,问题构建)
看了谷歌机器学习的视频,受益颇多,纯属想记录下免得以后忘了,٩(๑❛ᴗ❛๑)۶什么是(监督式)机器学习?简单来说,它的定义如下:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。标签在简单线性回归中,标签是我们要预测的事物,即 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。特征在简单线性回归中,特征是...原创 2018-04-05 22:46:42 · 192 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 8(Validation-验证)
看了谷歌机器学习的视频,受益颇多,纯属想记录下免得以后忘了,٩(๑❛ᴗ❛๑)۶接着上一篇(谷歌机器学习速成课程笔记 7),我们会将数据集分成训练集合测试集。好,现在我们将用训练集训练一种模型,然后使用测试数据对模型进行测试并观察其效果,之后我也许会进行一些设置,比如调整学习效率、添加一些特征,除去一些特征等等,然后重新尝试前面的操作,看能否提高测试集准确率,直到根据测试集指标找出最佳模...原创 2018-04-07 22:47:38 · 204 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 7(Training and Testing-训练集和测试集)
看了谷歌机器学习的视频,受益颇多,纯属想记录下免得以后忘了,٩(๑❛ᴗ❛๑)۶训练集用于训练构建模型,测试集用于测试该模型是否合格。训练集规模越大,模型的学习效果就越好测试集规模越大,我们对于评估指标的信心越充足,置信区间就越窄 ...原创 2018-04-07 22:29:36 · 390 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 6(Generalization-泛化)
看了谷歌机器学习的视频,受益颇多,纯属想记录下免得以后忘了,٩(๑❛ᴗ❛๑)۶百度百科——“泛化” 细分无需多言,强调的是目标人群的聚焦和集中。细分要求的是准确集中。而泛化则相反,无限扩大目标人群,虽针对某一种疾病,却试图将搭点边的人群都一网打尽。 泛化则要求分散、要求“广”和“多”。 如果从市场营销的角度来说,还有一种品牌泛化的概念。一种品牌用来包装很多商品,没...原创 2018-04-07 22:21:10 · 395 阅读 · 0 评论 -
谷歌机器学习速成课程笔记 16(Multi-Class Neural Networks-多类别神经网络)
但是现实世界中,我们通常不仅是在两个类别之间做选择,有时我们需要从一系列类别中的某个类别选择一个标签——某个对象是动物?蔬菜?矿物质?人造物体?等等将模型中的一个逻辑回归输出节点用于每个可能的类别,比如节点1——识别“这是苹果吗?”——是/否;节点2——识别“这是熊的照片吗?”——是/否;节点3——识别“这是糖果吗?”——是/否;我们只需让模型的开头 具有不同的输出...原创 2018-05-29 13:00:22 · 416 阅读 · 0 评论