自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

预见未来to50的专栏

Life is limited, but art is long

  • 博客(2720)
  • 收藏
  • 关注

原创 机器学习学习笔记——1.1.2.3.1 Feature scaling part 1(特征缩放——第1部分)

所以希望你们能注意到,当一个特征的可能值范围很大时,比如面积和平方英尺可以高达2000,一个好的模型更有可能学到选择一个相对较小的参数值,比如0.1。同样地,当特征的可能值较小时,比如卧室数量,那么其参数的合理值将相对较大,如50。你可能会看到一个等高线图,其中横轴的范围较窄,比如说在零到一之间,而纵轴取较大的值,比如在10到100之间。我们来看看一组可能的参数。如果你在一个经过这种变换的数据上运行梯度下降来找到重新缩放的x1和x2的成本函数上的最小值,那么轮廓看起来更像这样,更像是圆形而不是又高又瘦。

2024-09-18 19:07:20 364

原创 机器学习学习笔记——1.1.2.1.5 Gradient descent for multiple linear regression(多特征线性回归的梯度下降)

虽然事实证明梯度下降是一种很好的最小化代价函数 J 以找到 w 和 b 的方法,但还有一种只适用于线性回归的算法,而且几乎没有本专业中你看到的其他算法适用于求解 w 和 b,并且这种其他方法不需要迭代梯度下降算法。但是与其把 w₁到 wₙ看作单独的数字,即单独的参数,不如让我们开始把所有的 w 收集到一个向量 w 中,这样现在 w 就是一个长度为 n 的向量。对于多元线性回归,我们有 j 从 1 到 n,所以我们将更新参数 w₁,w₂,一直到 wₙ,然后像以前一样,我们将更新 b。这是梯度下降的样子。

2024-09-18 18:46:02 472

原创 机器学习学习笔记——1.1.2.1.3 Vectorization part 2(向量化——第2部分)

也许如果你有16个特征,速度差异不会很大,但如果你有几万个特征,可能还有非常大的训练集,这种类型的向量化实现将在你的学习算法的运行时间上产生巨大的差异。这个可选的实验室介绍了相当多的NumPy新语法,所以当你阅读可选实验室时,请不要觉得你必须立即理解所有代码,但你可以保存这个笔记本,当你处理存储在NumPy数组中的数据时作为参考查看。让我们继续观看下一个视频。我记得我第一次了解向量化时,我在电脑上花了好几个小时,运行一个未经向量化版本的算法,看看它运行多久,然后运行一个向量化版本的代码,看它运行得有多快。

2024-09-18 15:56:47 617

原创 机器学习学习笔记——1.1.2.1.2 Vectorization part 1(向量化——第1部分)

现在,你可以这样写你的代码,但如果n不是3而是100或100,000,那么对你来说编写代码以及对你的计算机来说计算都将是低效的。这是函数f的数学表达式,即w和x的点积加上b,现在你可以通过计算fp等于np.dot(w, x)来实现这一行代码,我之所以说两个点是因为第一个点是句号,第二个点是称为DOT的函数或方法。当你实现一个学习算法时,使用向量化会让你的代码更短,同时也会使你的代码运行得更加高效。总之,向量化使你的代码更短,希望更容易编写,也更容易供你或其他人阅读,而且还能使你的代码运行得更快。

2024-09-18 15:53:50 537

原创 机器学习学习笔记——1.1.2.1.1 Multiple features(多特征线性回归)

具体来说对于房价预测,一个可能的模型可能是我们估计房屋价格为0.1倍的X_1,即房屋的大小,加上4倍的X_2,即卧室的数量,加上10倍的X_3,即楼层的数量,减去2倍的X_4,即房屋的年龄(以年计)再加上80。嗯,两个向量或两个数字列表W和X的点积,是通过检查相应的数字对,W_1和X_1相乘,W_2 X_2相乘,W_3 X_3相乘,一直到最后W_n和X_n相乘,然后所有这些乘积求和来计算的。在原始版本的线性回归中,你有一个单独的特征x,即房屋的大小,并能够预测y,即房屋的价格。

2024-09-18 15:21:07 460

原创 机器学习学习笔记——1.1.1.6.6 Running gradient descent(运行梯度下降)

批量梯度下降这个词指的是在梯度下降的每一步,我们都在查看所有训练样本,而不是仅仅查看训练数据的一个子集。例如,如果你朋友的房子大小是1250平方英尺,你现在可以读出价值并预测他们可能得到的价格,我不知道,可能是250,000美元。你也可以多次参加测验,直到你得到你想要的分数。下周,我们将学习如何使线性回归变得更加强大,而不是像房子的大小这样的单一特征,你将学习如何让它与许多特征一起工作。现在,如果我们使用梯度下降迈出一步,我们从成本函数的这一点移动到右边下方的另一点,并注意到直线拟合也改变了一点。

2024-09-18 15:15:46 314

原创 机器学习学习笔记——1.1.1.6.5 Gradient descent for linear regression(线性回归梯度下降)

这个表达式是成本函数关于 b 的导数。你可能还记得这个看起来像一个户外公园的曲面图,有几座小山,有进程和鸟儿,是一个令人放松的霍博山。如果你以前上过微积分课程,当然如果你没上过也完全没关系,你可能知道根据微积分规则,导数等于这边这个项。在这张幻灯片中,这是整个专业课程中最具数学性的幻灯片之一,并且再次完全是可选的,我们将向你展示如何计算导数项。当你在凸函数上实现梯度下降时,一个很好的性质是,只要你适当地选择学习率,它总是会收敛到全局最小值。此前,你先了解了线性回归模型,接着是成本函数,然后是梯度下降算法。

2024-09-18 15:14:58 481

原创 机器学习学习笔记——1.1.1.6.4 Learning rate(学习率)

所以,这里还有一个问题,你可能想知道如果你的一个参数W已经在这里了怎么办。你在这里看到的不是一个平方误差成本函数,这个成本函数有两个局部最小值,对应于你在这里看到的两个山谷。这是我们想要最小化的W的成本函数J。对于学习率太小的情况,这里有一个图,横轴是W,纵轴是成本J。所以,这里又是一个步骤,再一个步骤,另一个微小的步伐,直到你最终接近最小值。现在,读到这里第三点,导数比前一步小,我们将采取更小的一步,随着我们接近最小值。所以当我们运行梯度下降时,最终我们会采取非常小的步骤,直到你最终达到一个局部最小值。

2024-09-18 15:07:38 493

原创 机器学习学习笔记——1.1.1.6.3 Gradient descent intuition(梯度下降直观感受)

这就像我们之前的例子,我们暂时将b设为0,只有一个参数w,而不是两个,你可以查看成本函数j的二维图,而不是三维图。现在,记住导数项是J的w的导数,当我们看这一点的切线时,这条线的斜率是J在这一点上的导数。例如,如果你画一个三角形,那么高是负2,宽是1,斜率是负2除以1,即负2,这是一个负数。想象一下,你从函数J上的这一点开始,梯度下降会做的是将w更新为w减去学习率α乘以J的w的导数。你可能注意到,如果你的目标是减小成本J,那么当我们在这个曲线上向左移动时,成本j减少,你正在接近J的最小值,就在这里。

2024-09-18 15:01:19 431

原创 机器学习学习笔记——1.1.1.6.2 Implementing gradient descent(梯度下降的实现)

这个表达式的意思是,通过取当前值的w并对其进行小幅度的调整,即这个表达式的右侧,减去α乘以这个项。首先,这里的等号表示。具体来说,在这个上下文中,如果你写代码说a=c,意思是取值c并将其存储在你的计算机中,变量a中。记住在表面图的图形中,你正在采取小步骤直到你到达底部的值,对于梯度下降算法,你会重复这两个更新步骤,直到算法收敛。这也意味着这边的temp_b项与左边的temp_b项不完全相同,因此这边的更新后的b值与左边的变量b的更新值不同。现在,你可能注意到的一点是,这里的w值是从w得到更新的。

2024-09-18 14:58:36 324

原创 机器学习学习笔记——1.1.1.6.1 Gradient descent(梯度下降)

事实证明,梯度下降有一个有趣的特性。对于不同的w 和b值,你在这个表面上得到不同的点,j的某个点的高就是成本函数的值。好吧,如果你想尽可能高效地走下这座山,事实证明,如果你站在山上的这一点上,环顾四周,你会注意到下一个下坡的最佳方向大致是那个方向。在我们到目前为止看到的示例中,这是线性回归的成本函数,但事实证明,梯度下降是一种可以用来尝试最小化任何函数的算法,不仅仅是线性回归的成本函数。使用梯度下降算法,你要做的是,你会不断改变参数w 和b,每次都尝试减少w , b的成本j,直到希望j稳定在或接近最小值。

2024-09-18 14:55:26 460

原创 机器学习学习笔记——1.1.1.4.7 Visualization examples(可视化示例)

最后一个例子,如果你看左边的f(x),这看起来是对训练集的一个相当不错的拟合。我希望通过查看这些图,你能更好地理解不同参数选择如何影响f(x)的线,以及这与成本j的不同值是如何对应的,希望你能看到更好的拟合线对应于j图上更接近最小可能成本的点。在这个视频之后的可选实验室中,你将运行一些代码,记住所有的代码都已给出,所以你只要按Shift Enter运行它并查看,实验室会向你展示如何在代码中实现成本函数。因为这条线不是一个好的拟合,如果你看j的图,这条线的成本在这里,离最小值相当远。让我们再看一个例子。

2024-09-18 14:23:56 580

原创 机器学习学习笔记——1.1.1.4.6 Visualizing the cost function(成本函数可视化)

回顾上次我们看到的,当你只有一个参数w时,因为我们暂时将b设为0来简化事情,但我们得出了一个像这样的成本函数图,只作为w的函数。这个等高线图的两个轴是b,在垂直轴上,和w在水平轴上。现在,碗的底部,即成本函数J处于最小值的地方,就是这个点,位于这些同心椭圆的中心。想象这个碗形状从你平放的电脑屏幕中长出来,这样每个椭圆都在你的屏幕上方有相同的高度,碗的最小值就在最小的椭圆中心的正下方。到目前为止,我们所看到的有模型、模型的参数w和b、成本函数J关于w和b,以及线性回归的目标,即最小化参数w和b的成本函数J。

2024-09-18 14:08:29 305

原创 机器学习学习笔记——1.1.1.4.5 Cost function intuition(成本函数直观感受)

首先,注意对于 f_w,当参数 w 固定时,即总是一个常数值,那么 f_w 只是 x 的函数,这意味着 y 的估计值取决于输入 x 的值。相比之下,看右边的成本函数 J,是 w 的函数,其中 w 控制由 f_w 定义的线的斜率。在更一般的情况下,我们有参数w和b而不仅仅是w,你找到最小化J的w和b的值。例如,当w等于1时,这对应于通过数据的这条直线拟合,它也对应于J图上的这个点,其中w等于1且成本J等于0。对于给定的训练集,选择w的值对应于右侧图形上的一个点,因为对于每个w值,你可以计算出w的成本J。

2024-09-18 13:58:28 607

原创 机器学习学习笔记——1.1.1.4.4 Cost function formula(成本函数公式)

只是为了提醒你一些记号,像这样的训练样本是由x^i,y^i定义的,其中y是目标。对于给定的输入x^i,函数f也为y做了一个预测值,它预测给y的值是y帽i,显示在这里。最后,如果w等于0.5且b等于1,则f of x是0.5乘以x加1,当x是0时,那么f of x等于b,即1,所以线在b处与垂直轴相交,即y截距。注意,如果我们有更多的训练样本,m更大,你的成本函数将计算出一个更大的数字。现在的问题是,你如何找到w和b的值,使得预测y帽i接近于许多或可能是所有训练样本x^i,y^i的真实目标y^i。

2024-09-18 13:50:39 552

原创 机器学习学习笔记——1.1.1.4.2 Linear regression model part 2(线性回归模型——第2部分)

更具体地说,这是一个单变量线性回归,其中“单变量”这个词意味着有一个单一的输入变量或特征x,即房子的大小。这个f_w b of x意味着f是一个函数,它接受x作为输入,根据w和b的值,f将输出一些预测y-hat的值。你的模型f,根据大小,输出价格,这是估计器,也就是对真实价格的预测。回忆一下,在监督学习中的训练集包括输入特征,比如房子的大小,以及输出目标,比如房子的价格。在后面的视频中,你还将看到一个回归的变体,在那里你想要根据关于房子你可能知道的其他一些事情进行预测,比如卧室数量和其他特征。

2024-09-14 15:12:15 901

原创 机器学习学习笔记——1.1.1.4.1 Linear regression model part 1(线性回归模型——第1部分)

基于这条直线对数据的拟合,你可以看到,房子是1250平方英尺,它会在这里与最佳拟合线相交,如果你追踪到左边的纵轴,你可以看到价格大概在这里,比如说大约220,000美元。我们称之为监督学习,因为你首先通过提供有正确答案的数据来训练模型,因为对于数据集中的每所房子,你都给出了房子的大小以及模型应该为每所房子预测的价格。为了预测你客户的房价,你首先需要用训练集来训练你的模型,然后这个模型就可以预测你客户房子的价格了。实际上我们有47个。例如,对于你的训练集中的第一个房子,x是房子的大小,因此x等于2,104。

2024-09-14 14:47:44 545

原创 机器学习学习笔记——1.1.1.2.6 Jupyter Notebooks(Jupyter笔记本)

在这里,我们已经提供了代码,如果你想运行这个代码单元,按Shift Enter就会运行这个代码单元中的代码,顺便说一下,如果你点击一个Markdown单元,所以显示所有这些格式,继续在你的键盘上按Shift Enter,这也将转换回这种精美的格式化文本。阅读代码,看看是否说得通,尝试预测你认为这段代码会做什么,然后按下Shift Enter,然后看看代码实际上做了什么,如果你喜欢,可以自由地进去编辑代码,更改代码,然后运行它,看看会发生什么。你需要做的就是打开它,然后运行我们提供的代码。

2024-09-14 14:09:19 407

原创 机器学习学习笔记——1.1.1.2.5 Unsupervised learning part 2(非监督学习——第2部分)

现在,我想问你另一个问题来帮助你检查你的理解,而且不要有压力,如果你第一次没有答对,完全没有关系。在上一个视频中,你看到了什么是无监督学习,以及一种叫做聚类的无监督学习类型。在监督学习中,数据同时包含输入x和输入标签y,而在无监督学习中,数据只包含输入x而不包含输出标签y,算法必须在数据中找到某种结构或模式或有趣的东西。我们只看到了一个无监督学习的示例,称为聚类算法,它将相似的数据点分组在一起。这在金融系统的欺诈检测中被证明是非常重要的,不寻常的事件、不寻常的交易可能是欺诈的迹象,还有许多其他应用。

2024-09-14 14:03:02 287

原创 机器学习学习笔记——1.1.1.2.4 Unsupervised learning part 1(非监督学习——第1部分)

在无监督学习中,我们得到的是没有与任何输出标签y关联的数据,比如说你得到了关于病人和他们肿瘤大小的数据,以及病人的年龄。注意,“熊猫”这个词在这里、这里、这里、这里和这里出现,还要注意“双胞胎”这个词也在所有五篇文章中出现,“动物园”这个词也出现在所有这些文章中,所以聚类算法是在寻找当天互联网上成千上万篇新闻文章中提到的相似词汇的文章,并将它们分组到集群中。也许这就是你,那太好了,第二个组的主要动机是寻找发展职业的方法。我希望我能在你的旅程上帮助你,或者如果这是你,你想要的完全不同于其他三个类别的东西。

2024-09-14 13:56:55 1044

原创 机器学习学习笔记——1.1.1.2.3 Supervised learning part 2(监督学习——第2部分)

使用患者的医疗记录,你的机器学习系统试图弄清楚一个肿块是恶性的,意味着癌变的或危险的。然后你可以像这样在图上绘制你的数据,其中水平轴代表肿瘤的大小,垂直轴只取两个值0或1,取决于肿瘤是良性的还是恶性的。但是,当你解释数字时,分类与回归不同之处在于,分类预测了一个有限可能输出类别的小集合,如0、1和2,但不是所有可能的数字,如0.5或1.7。在我们一直在看的监督学习的例子中,我们只有一个输入值,肿瘤的大小。在上一个视频中,你看到了回归算法,这是一种监督学习算法,学习从无限多的可能数字中预测数字。

2024-09-14 12:54:04 494

原创 机器学习学习笔记——1.1.1.2.2 Supervised learning part 1(监督学习——第1部分)

学习算法可能能做的一件事是,比如说,对数据拟合一条直线,并根据这条直线判断,看起来你朋友的房子可能可以卖到大约150,000美元。这包括正确答案,即给定输入x的正确标签y,通过看到正确的输入x和期望输出标签y的组合,学习算法最终学会只根据输入本身(无需输出标签)给出相当准确的预测或猜测输出。我的意思是,我们试图从无限多个可能的数字中预测一个数字,比如我们的例子中的房价,可能是150,000或70,000或183,000或介于两者之间的任何其他数字。在这段视频中,你看到了一个回归的例子,任务是预测一个数字。

2024-09-13 20:53:01 618

原创 机器学习学习笔记——1.1.1.2.1 What is machine learning?(什么是机器学习?)

当我看到他们正在做什么时,我有时会觉得我本可以在六个月前告诉他们当前的方法行不通,有一种不同的使用这些工具的方式会给他们带来更大的成功机会。在这门课中,你学到的一个相对独特的东西是你学到了很多关于如何实际开发一个实用、有价值的机器学习系统的最佳实践。一般来说,你给学习算法学习的机会越多,它的表现就会越好。通过观察哪些棋盘位置倾向于导致胜利,哪些位置倾向于导致失败,这个下棋程序学会了随时间推移,通过尝试获得好的位置并避免坏的位置,这个程序学会了越来越好地下棋,因为计算机有耐心与自己对弈数万局。

2024-09-13 20:43:26 358

原创 机器学习学习笔记——1.1.1.1.2 Applications of machine learning(机器学习应用)

对我来说,当我创立并领导谷歌大脑团队时,我从事了语音识别、谷歌地图的计算机视觉、街景图像和广告等工作,或者在领导百度的AI时,我从增强现实到打击支付欺诈再到领导自动驾驶汽车团队等各方面工作。你将了解到最重要的机器学习算法,其中一些正是如今大型科技公司所采用的,让你对人工智能的前沿技术有一个认识。如今,有成千上万甚至数百万的人在从事机器学习应用的工作,他们可以告诉你类似的故事,讲述他们与机器学习的合作经历。结果发现,我们可以为机器编写一些基本的程序,比如如何找到从A点到B点的最短路径,就像你的GPS一样。

2024-09-13 20:36:11 404

原创 机器学习学习笔记——1.1.1.1.1 Welcome to machine learning!(欢迎来到机器学习)

或者当你向Instagram或Snapchat上传图片并想给自己的朋友打标签时,这些应用程序可以识别出你图片中的朋友并为他们打上标签。>>或者告诉你的手机,嘿Siri播放Rihanna的歌曲,或者让你的另一部手机好的Google显示我附近的印度餐馆。也许你真的很富有,恭喜你。但更有可能的是,你的电子邮件服务可能会将其标记为垃圾邮件。或者最近在Landing AI,我们做了很多工作,将计算机视觉引入工厂,帮助检查生产线上下线的产品是否有缺陷。这就是机器学习,它是让计算机在没有被明确编程的情况下学习的科学。

2024-09-13 20:28:01 460

原创 大语言模型生成式AI学习笔记——2. 2.5PEFT(参数高效微调)——实验2(对话总结生成式AI模型的调优)

在本笔记本中,您将对Hugging Face的现有LLM进行微调,以提高对话摘要的能力。您将使用FLAN-T5模型,该模型提供了一个高质量的指令调整模型,并且能够直接对文本进行摘要。为了提升推理能力,您将探索完整的微调方法,并使用ROUGE指标评估结果。然后,您将执行PEFT微调,评估得到的模型,并发现PEFT的好处超过了稍微低一些的性能指标。注意:对于实验室,最好使用笔记本电脑或台式电脑,而不是平板电脑。本课程中的实验室仅对已购买课程的学习者开放。

2024-05-10 15:22:33 663

原创 大语言模型生成式AI学习笔记——2. 2.4PEFT(参数高效微调)——实验2(对话总结生成式AI模型的调优)说明

本周的实验室,让你亲自尝试使用PEFT和LoRA进行微调,通过提高Flan-T5模型的摘要能力。我的同事Chris将带你了解本周的笔记本。现在我把你交给他。现在让我们看看第二实验室。在第二实验室中,你将亲自动手进行完全微调和参数高效微调(也称为PEFT和提示指令)。你将为你的特定摘要任务,用你自己特定的提示进一步调整Flan-T5模型。让我们直接进入笔记本。第二实验室,我们将实际对模型进行微调。第一实验室,我们进行了零样本推断,情境内学习。

2024-05-10 15:12:46 912

原创 大语言模型生成式AI学习笔记——2. 2.3PEFT(参数高效微调)——PEFT技术其二——软提示

并最终降低微调的成本,让你充分利用你的计算预算并加速你的开发过程。要在推理时使用它们,只需在你的输入提示前加上学习的标记,要切换到另一个任务,只需更改软提示。在论文的这张图中,你可以看到X轴上的模型大小和Y轴上的SuperGLUE得分。通过提示调优,你会在提示中添加额外的可训练标记,并将其最佳值的决定交给监督学习过程。然而,对软提示位置附近的最近邻标记的分析表明,它们形成了紧密的语义聚类。由于LoRA在许多任务和数据集上与完全微调的性能相当,因此在实践中被广泛使用,你将在本周的实验室中亲自尝试它。

2024-05-10 12:26:19 687

原创 大语言模型生成式AI学习笔记——2. 2.2PEFT(参数高效微调)——PEFT技术其一——LORA

你可以看到,这些分数相当低。然而,使用LoRA进行微调训练的参数数量要比全量微调少得多,使用的计算资源也显著减少,所以这小小的性能折衷可能是值得的。然后你保持LLM的原始权重冻结,并使用你本周早些时候看到的相同的监督学习过程来训练这些较小的矩阵。但是,由于LLM的大多数参数都在注意力层中,通过将这些权重矩阵应用于LoRA,你可以在可训练参数上获得最大的节省。相反,如果你想执行一个不同的任务,比如说任务B,你只需取出你为此任务训练的LoRA矩阵,计算它们的乘积,然后将这个矩阵加到原始权重上并再次更新模型。

2024-05-10 11:56:12 584

原创 大语言模型生成式AI学习笔记——2. 2.1PEFT(参数高效微调)——概要

适配器方法在模型的架构中添加新的可训练层,通常是在编码器或解码器组件的注意力或前馈层之后。因此,训练参数的数量比原始LLM中的参数数量少得多。通过参数高效的微调,你只训练少量的权重,这导致整体占用空间小得多,根据任务的不同,小到只有几MB。你可以使用几种方法进行参数高效的微调,每种方法在参数效率、内存效率、训练速度、模型质量和推断成本上都有不同的权衡。即使你的计算机能够容纳模型权重——对于最大的模型来说,现在的数量级已经是数百GB——你还必须能够在训练过程中为优化器状态、梯度、前向激活和临时内存分配内存。

2024-05-10 11:23:53 634

原创 大语言模型生成式AI学习笔记——2. 1.7LLM指令微调——​​​​​​​基准测试

HELM的一个重要特点是它不仅评估基本准确性指标,如F1分数的精度,还包括公平性、偏见和毒性等指标,这些指标对于评估越来越有能力进行类似人类的语言生成的LLM,以及可能表现出有害行为的LLM变得越来越重要。随着模型变得更大,它们在像SuperGLUE这样的基准测试上的表现开始接近人类在特定任务上的能力。本质上,这是LLM的新兴属性与旨在衡量它们的基准之间的军备竞赛。正如你在上一个视频中看到的,大型语言模型(LLMs)是复杂的,而像ROGUE和BLEU这样的简单评估指标只能告诉你关于模型能力的部分信息。

2024-05-09 16:03:00 440

原创 大语言模型生成式AI学习笔记——2. 1.6LLM指令微调——​​​​​​​模型评估

例如,这个生成的输出“冷,冷,冷,冷”。”即使是在使用剪辑功能的修改后的精确度上,这个句子也被完美地称为,因为所有生成的输出中的单词都在参考中出现。虽然使用不同的rouge分数可以帮助实验,但计算最有用的分数的n-gram大小将取决于句子、句子的大小和你的使用案例。请注意,许多语言模型库,例如你在第一周实验室中使用的Hugging Face,包括你可以使用来轻松评估模型输出的rouge分数的实现。在传统的机器学习中,你可以通过查看模型在训练和验证数据集上的表现来评估模型的好坏,其中输出已经是已知的。

2024-05-09 15:13:31 419

原创 大语言模型生成式AI学习笔记——2. 1.5LLM指令微调——缩放指令模型

以下是来自讲座幻灯片的图片,展示了训练FLAN时使用的微调任务和数据集。任务选择扩展了之前的工作,通过纳入Muffin的对话和程序合成任务,并将其与新的思维链推理任务整合。一些任务在训练过程中被保留,后来用于评估模型在未见任务上的性能。本文介绍了FLAN(Fine-tuned LAnguage Net),一种指令微调方法,并展示了其应用的结果。研究表明,通过在1836个任务上对540B PaLM模型进行微调,同时结合思维链推理数据,FLAN在泛化能力、人类可用性和零样本推理方面取得了比基础模型更好的改进。

2024-05-08 11:49:44 278

原创 大语言模型生成式AI学习笔记——2. 1.4LLM指令微调——多任务指令微调

然而,它的表现并不像人类生成的基线摘要那样好,后者包括了诸如Mike询问信息以便于办理入住等重要信息,而模型的完成还捏造了原始对话中未包含的信息。虽然FLAN-T5是一个表现良好且适用于多种任务的通用模型,但你可能会发现它在你的特定用例的任务中还有改进的空间。在接下来的视频中,你将了解几个指标和基准,你可以使用它们来确定你的模型表现如何,以及你的微调版本比原始基础模型好多少。在许多轮次的训练中,通过计算示例的损失来更新模型的权重,结果得到了一个指令调整后的模型,学会了同时擅长许多不同的任务。

2024-04-30 15:43:04 1050

原创 大语言模型生成式AI学习笔记——2. 1.3LLM指令微调——​​​​​​​单任务微调

如果你只需要在你微调的单个任务上有可靠的表现,模型不能泛化到其他任务可能不是问题。良好的多任务微调可能需要跨越许多任务的50-100,000个示例,因此将需要更多的数据和计算来进行训练。我们的第二个选择是执行参数高效的微调,或简称PEFT,而不是完整的微调。有趣的是,相对较少的示例也可以取得良好的结果。例如,虽然微调可以提高模型执行评论情感分析的能力并产生高质量的完成,但模型可能会忘记如何做其他任务。但在微调之后,模型无法再执行此任务,混淆了它应该识别的实体,并表现出与新任务相关的行为。

2024-04-30 14:57:49 732

原创 大语言模型生成式AI学习笔记——2. 1.2LLM指令微调——​​​​​​​指令微调

如果你正在提高模型的翻译技能,你的示例将包括像翻译这个句子这样的指令。幸运的是,开发者们已经汇编了提示模板库,这些库可以用来获取现有的数据集,例如,亚马逊产品评论的大数据集,并将其转换为用于微调的指令提示数据集。与预训练不同,在预训练中你使用大量的非结构化文本数据通过自我监督学习来训练LLM,微调是一个监督学习过程,你使用一组标记示例的数据集来更新LLM的权重。在本课程的早期,你看到一些模型能够识别包含在提示中的指令并正确执行零样本推理,而其他模型,如较小的LLM,可能无法执行任务,就像这里显示的例子。

2024-04-30 14:48:32 722

原创 大语言模型生成式AI学习笔记——2. 1.1LLM指令微调——​​​​​​​第2周课程简介

欢迎回来。这周我和我的导师Mike和Shelby在一起。上周你们了解了转换器网络,这实际上是大型语言模型的一个关键基础,以及生成式AI项目生命周期。这周我们还有更多内容要深入探讨,首先从大型语言模型的指令调整开始。然后是关于如何以高效的方式进行微调。是的,所以我们将看看指令微调。当你有一个基础模型,最初预训练时,它编码了很多非常好的信息,通常是关于世界的信息。所以它知道很多事情,但它不一定知道如何响应我们的提示,我们的问题。所以当我们指示它做某项任务时,它不一定知道如何响应。

2024-04-30 14:14:37 823

原创 大语言模型生成式AI学习笔记——1.3.2 第1周​​​​​​​测试题(大语言模型及生成式AI项目生命周期简介,LLM预训练和缩放法则)

原题参考答案

2024-04-26 16:08:26 127

原创 大语言模型生成式AI学习笔记——1.3.1 第1周参考资料

您已经看到了回答讲座视频中测验所需的最重要的要点。在这篇论文中,作者详细讨论了用于训练模型的数据集和过程。的自然语言处理专业系列课程中的一序列课程,讨论了向量空间模型的基础知识及其在语言建模中的应用。在下面,您将找到本周视频中讨论的研究论文的链接。该论文检查了大型预训练语言模型中的建模选择,并确定了零射击泛化的最优方法。生命周期的所有阶段,包括模型选择、微调、适应、评估、部署和运行时优化。的研究人员进行的实证研究,探索了大型语言模型的缩放法则。这篇论文调查了大型语言模型中少样本学习的潜力。

2024-04-26 16:02:53 752

原创 大语言模型生成式AI学习笔记——1. 2.5LLM预训练和缩放法则——​​​​​​​领域适配预训练及实例BloombergGPT

到目前为止,我强调了在开发应用程序时,你通常会与现有的大型语言模型(LLM)一起工作。这样可以节省大量时间,并能让你更快地获得一个可用的原型。然而,有一种情况下,你可能会发现有必要从头开始预训练自己的模型。如果你的目标领域使用了在日常语言中不常用的词汇和语言结构,你可能需要执行领域适应以获得良好的模型性能。例如,想象你是一个开发者,正在构建一个帮助律师和法律助理总结法律摘要的应用程序。法律写作使用非常特定的术语,如第一个示例中的"mens rea"和第二个示例中的"res judicata"。

2024-04-26 16:00:03 613

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除