ちゆきー-CSDN博客

原创吴恩达机器学习笔记：逻辑回归4

我们定义了单训练样本的代价函数，凸性分析的内容是超出范围的，但是可以证明我们所选的代价值函数会给我们一个凸优化问题。带入到这样定义了的代价函数中时，我们得到的代价函数将是一个非凸函数（non-convexfunction）。具体来说，要定义用来拟合参数的优化目标或者叫代价函数，这便是监督学习问题中的逻辑回归模型的拟合问题。与线性回归中不同，所以实际上是不一样的。注：虽然得到的梯度下降算法表面上看上去与线性回归的梯度下降算法一样，但是这里的。对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。

2025-05-25 15:54:54 942

原创吴恩达机器学习笔记：逻辑回归3

的参数向量为[-1 0 0 1 1]，则我们得到的判定边界恰好是圆点在原点且半径为 1 的圆形。= 3，这条线便是我们模型的分界线，将预测为1的区域和预测为0的区域分隔开。假使我们的数据呈现这样的分布情况，怎样的模型才能适合呢？当ℎθ (x) < 0.5时，预测 y = 0。并且参数θ是向量[-3 1 1]。当ℎθ (x) >= 0.5时，预测 y = 1。≥ 3时，模型将预测 y = 1。Z = 0 时 g(Z) = 0.5。>= 0 时，预测 y = 1。< 0 时，预测 y = 0。

2025-05-25 15:23:12 442 1

原创吴恩达机器学习笔记：逻辑回归2

在分类问题中，要用什么样的函数来表示我们的假设。此前我们说过，希望我们的分类器的输出值在 0 和 1 之间，因此，我们希望想出一个满足某个性质的假设函数，这个性质是它的预测值要在 0 和 1 之间。例如，如果对于给定的x，通过已经确定的参数计算得出ℎθ (x) = 0.7，则表示有 70%的几率y为正向类，相应地y为负向类的几率为 1-0.7=0.3。ℎθ (x)的作用是，对于给定的输入变量，根据选择的参数计算输出变量=1 的可能性（estimated probablity）

2025-05-16 18:09:34 871

原创吴恩达机器学习笔记：逻辑回归1

如果我们要用线性回归算法来解决一个分类问题，对于分类， y 取值为 0 或者 1，但如果你使用的是线性回归，那么假设函数的输出值可能远大于 1，或者远小于 0，即使所有训练样本的标签 y 都等于0 或 1。尽管我们知道标签应该取值 0 或者 1，但是如果算法得到的值远大于 1 或者远小于 0 的话，就会感觉很奇怪。在分类问题中，你要预测的变量 𝑦 是离散的值，我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法，这是目前最流行使用最广泛的一种学习算法。

2025-05-16 17:16:27 408

原创吴恩达机器学习笔记：正规方程

因此，梯度下降法是一个非常有用的算法，可以用在有大量特征变量的线性回归问题。所以，根据具体的问题，以及你的特征变量的数量，这两种算法都是值得学习的。随着我们的学习算法越来越复杂，例如，分类算法，像逻辑回归算法，我们会看到，实际上对于那些算法，并不能使用标准方程法。注：对于那些不可逆的矩阵（通常是因为特征之间不独立，如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征，也有可能是特征数量大于训练集的数量），正规方程方法是不能用的。总结一下，只要特征变量的数目并不大，标准方程是一个很好的计算参数θ的替代方法。

2025-05-15 14:30:49 1005

原创吴恩达机器学习笔记：特征与多项式回归

注：如果我们采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。通常我们需要先观察数据然后再决定准备尝试怎样的模型。，从而将模型转化为线性回归模型。

2025-05-15 14:07:28 566

原创吴恩达机器学习笔记：多维梯度下降实践

以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0- 2000 平方英尺，而房间数量的值则是 0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。梯度下降算法的每次迭代受到学习率的影响，如果学习率a过小，则达到收敛所需的迭代次数会非常高；其中 μn 是平均值，sn 是标准差。

2025-05-14 14:50:04 482

原创吴恩达机器学习笔记：多变量梯度下降

这个公式中有个n+1参数和个n变量，为了使得公式能够简化一些，引入x0=1 则公式转化为：ℎθ (x) = θ0x0 + θ1x1 + θ2x2 +. . . +θnxn。此时模型中的参数是一个n + 1维的向量，任何一个训练实例也都是n + 1维的向量公式可以简化为：ℎθ(x) = θᵀX其中上标T代表矩阵转置。之前我们探讨了单变量/特征的回归模型，现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为。

2025-05-14 14:40:39 662

原创吴恩达机器学习笔记：梯度下降

实际上，在机器学习中，通常不太会给算法起名字，但这个名字”批量梯度下降”，指的是在梯度下降的每一步中，我们都用到了所有的训练样本，在梯度下降中，在计算微分求导项时，我们需要进行求和运算，所以，在每一个单独的梯度下降中，我们最终都要计算这样一个东西，这个项需要对所有训练样本求和。如果a太大，那么梯度下降法可能会越过最低点，甚至可能无法收敛，下一次迭代又移动了一大步，越过一次，又越过一次，一次次越过最低点，直到你发现实际上离最低点越来越远，所以，如果a太大，它会导致无法收敛，甚至发散。

2025-05-13 16:30:25 1309

原创吴恩达机器学习笔记：代价函数

在线性回归中我们有一个像这样的训练集，m代表了训练样本的数量，比如m=47。而我们的假设函数，也就是用来进行预测的函数，是这样的线性函数形式接下来我们会引入一些术语我们现在要做的便是为我们的模型选择合适的参数 θ0 和 θ1，在房价问题这个例子中便是直线的斜率和在y 轴上的截距。我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度，模型所预测的值与训练集中实际值之间的差距（下图中蓝线所指）就是建模误差。我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。

2025-05-13 15:49:15 405

原创吴恩达机器学习笔记：单变量线性回归

那么，你可以做的一件事就是构建一个模型，也许是条直线，从这个数据模型上来看，能以大约 220000(美元)左右的价格卖掉这个房子。要解决房价预测问题，我们实际上是要将训练集“喂”给我们的学习算法，进而学习得到一个假设ℎ，然后将我们要预测的房屋的尺寸作为输入变量输入给ℎ，预测出该房屋的交易价格作为输出变量输出为结果。ℎ代表hypothesis(假设)，ℎ表示一个函数，输入是房屋尺寸大小，就像你想出售的房屋，因此ℎ根据输入的x值来得出y值，y值对应房子的价格因此，ℎ是一个从x到y的函数映射。

2025-05-12 20:29:55 226

原创吴恩达机器学习笔记：无监督学习

这也是无监督学习，因为我们拥有所有的顾客数据，但我们没有提前知道是什么的细分市场，以及分别有哪些我们数据集中的顾客。这个就是无监督学习，没有提前告知算法一些信息，比如，这是第一类的人，那些是第二类的人，还有第三类，等等。其中就有基因学的理解应用，一个DNA微观数据的例子。所以这些颜色，红，绿，灰等等颜色，这些颜色展示了相应的程度，即不同的个体是否有着一个特定的基因。在无监督学习中，我们已知的数据看上去有点不一样，不同于监督学习的数据的样子，即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。

2025-05-12 17:18:13 439

原创吴恩达机器学习笔记：监督学习

想象一下，我没有写下这两种和右边的三种特征，而是在一个无限长的列表里面，一直写一直写不停的写，写下无限多个特征，事实上，我们能用算法来处理它们。在其他机器学习问题中，我们通常有更多的特征，对待这个问题时，通常采用这些特征，比如肿块密度，肿瘤细胞尺寸的一致性和形状的一致性等等，还有一些其他的特征。相反，你想用无限多种特征，好让你的算法可以利用大量的特征，或者说线索来做推测。在房价的例子中，我们给了一系列房子的数据，我们给定数据集中每个样本的正确价格，即它们实际的售价然后运用学习算法，算出更多的正确答案。

2025-05-12 16:44:10 925 1

原创 Android Studio修改Standard到Custom模式的方法

这次安装Android Studio时没有照着教程安装，在选择setup模式的时候选择了Standard模式，之后C盘差点爆炸，尝试卸载之后下载重新选择Custom模式，发现不出现弹窗。

2024-06-24 15:10:20 1204 3

原创机器学习--Transformer 2

紧接上篇介绍一下Transformer的解码器。

2024-03-11 20:26:52 1429 1

原创机器学习--Transformer 1

Transformer 是一个基于自注意力的序列到序列模型，与基于循环神经网络的序列到序列模型不同，其可以能够并行计算。

2024-03-11 20:25:45 1819 1

原创机器学习--循环神经网络（RNN）4

（loss function）来评估模型的好坏，选一个参数要让损失最小。以槽填充为例，如上图所示，给定一些句子，给定一些标签，告诉机器说第一个单词它是属于 other 槽，“上海”是目的地槽，“on“属于 other 槽，“June”和“1st”属于时间槽。“抵达”丢到循环神经网络的时候，循环神经网络会得到一个输出 y1。接下来这个 y1会看它的。

2024-03-08 12:15:07 1152 1

原创机器学习--循环神经网络（RNN）3

本篇文章结合具体的例子来介绍一下LSTM运算方式以及原理。请结合上篇文章的介绍食用。

2024-03-05 21:07:09 1417 2

原创机器学习--循环神经网路（RNN）2

在这篇文章中，我们介绍一下其他的RNN。

2024-03-04 23:03:34 1176 2

原创机器学习--循环神经网络（RNN）1

（Recurrent Neural Network）是深度学习领域中一种非常经典的网络结构，在现实生活中有着广泛的应用。以（slot filling）为例，如下图所示，假设订票系统听到用户说：“我想在 6 月 1 日抵达上海。”，系统有一些（slot）：目的地和到达时间，系统要自动知道这边的每一个单词是属于哪一个槽，比如“上海”属于目的地槽，“6 月 1 号”属于到达时间槽。

2024-03-04 19:58:09 1113 1

原创机器学习--自注意力机制4 比较

自注意力还可以被用在图像上。到目前为止，在提到自注意力的时候，自注意力适用的范围是输入为一组向量的时候。一张图像可以看作是一个向量序列，如图所示，一张分辨率为 5 × 10 的图像可以表示为一个大小为 5 × 10 × 3 的张量，3 代表 RGB 这 3 个通道（channel），每一个位置的像素可看作是一个三维的向量，整张图像是5 × 10 个向量。所以可以换一个角度来看图像，图像其实也是一个向量序列，它既然也是一个向量序列，完全可以用自注意力来处理一张图像。?

2024-03-02 21:16:04 1234

原创机器学习--自注意力机制3 进阶

自注意力有一个进阶的版本——多头自注意力的使用是非常广泛的，在翻译、语音识别，用比较多的头可以得到比较好的结果。至于需要用多少的头，这个又是另外一个（需要我们自己设置与调节）在使用自注意力计算相关性的时候，就是用 q 去找相关的 k。相关有很多种不同的形式，所以可以有多个 q，不同的 q 负责不同种类的相关性，这就是多头注意力。如图所示，先把 a 乘上一个矩阵得到 q，接下来再把 q 乘上另外两个矩阵，分别得到q1、q2。

2024-03-02 17:56:34 1313

原创机器学习--自注意机制2 运作原理

我们就先只讲第一个类型：输入跟输出数量一样多的状况，以序列标注（sequence labeling）为例。序列标注要给序列里面的每一个向量一个标签。虽然输入是一个序列，但可以不要管它是不是一个序列，各个击破，把每一个向量分别输入到全连接网络里面得到输出。这种做法有非常大的瑕疵，以词性标注为例，给机器一个句子：I saw a saw。对于全连接网络，这个句子中的两个 saw 完全一模一样，它们是同一个词汇。既然全连接网络输入同一个词汇，它没有理由输出不同的东西。

2024-02-28 21:43:24 967 1

原创机器学习--自注意力机制1 引入

截至目前，我们讨论的都是网络的输入为一个向量的情况，如果是回归问题，输出是一个标量，如果是分类问题，输出是一个类别。当输入是一组向量，并且输入的向量的数量是会改变的，即每次模型输入的序列长度都不一样，这个时候应该要怎么处理呢？

2024-02-28 20:40:32 891 1

原创机器学习--卷积神经网络3

把一张比较大的图像做），把图像偶数的列都拿掉，奇数的行都拿掉，图像变成为原来的 1/4，但是不会影响里面是什么东西。如图，把一张大的鸟的图像缩小，这张小的图像还是一只鸟。

2024-02-11 14:24:46 455 1

原创机器学习--卷积神经网络2

全连接网络是弹性最大的，可以决定它看整张图像还是只看一个范围。如果它只想看一个范围，可以把很多权重设成 0。全连接层（fully-connected layer ）可以自己决定看整张图像还是一个小范围。但加上感受野的概念以后，只能看一个小范围，网络的弹性是变小的。参数共享又进一步限制了网络的弹性。本来在学习的时候，每个神经元可以各自有不同的参数，它们可以学出相同的参数，也可以有不一样的参数。但是加入参数共享以后，某一些神经元无论如何参数都要一模一样的，这又增加了对神经元的限制。感受野加上参数共享就是。

2024-02-11 14:08:30 987 1

projectfailed的博客