李宏毅ML
文章平均质量分 58
Ari-10010
这个作者很懒,什么都没留下…
展开
-
P34 图像生成常见模型速览
讲一个图片encoder成一个向量,用向量来表示normal distribution中的一个,然后还可以通过decoder解出来。采用同样的思想,我们也可以在影像生成中采取autoregressive。如图,虽然都是奔跑的dog,但图片的颜色,狗的大小,姿势都可以不同。但是如果我们要每一个又是独立生成的话,又会出现各画各的。在文字生成中,可以根据当前来推断下一个最有可能出现的字。事实上,这种方法太耗费时间了,还可以采取一次到位的方法。不过一次到位时,结果不唯一,正确答案是一个分布。原创 2023-06-07 16:09:34 · 144 阅读 · 1 评论 -
P29~31 大模型 + 大资料 = 神奇力量 ?
为了验证实验的正确性,基于实验推出的参数63B和1.4T,设计出chinchilla。由此,以gopher为单位,产生出一张表格,里面由推荐的参数大小和对应的数据大小。老师这里说到,由此人们逐渐意识到,或许比起大模型来说,我们更需要的是喂足够多的资料。用不同的大模型去解决问题时,纵轴代表这些任务的正确率,虚线代表随机乱猜的结果。比如再图中,从小模型到中模型时,公式已经列对了,只是差一点计算就能完成。第一个图的横轴是模型的参数量,参数量越多代表模型越大。由图可看出,训练的资料量越多,错误率也会越低。原创 2023-06-06 17:54:13 · 65 阅读 · 0 评论 -
P26~27 self-supervised learning
而self-supervised则是一开始连样本都不提供,不给标注,没有label,自己想办法做supervised。supervised即有监督的ML,需要提供样本供model学习,然后对一个新的问题进行输出。掩盖部分所对应的输出得到一个向量,将该向量转换成一个矩阵,再进行softmax得到一组分布。我们想办法把这些文字分成两部分,一部分用于模型的输入x',另一部分用于模型的标注x''输出和输入的长度相等,这个case是来判断输入每个词的词性。先随机的掩盖字,然后再决定怎么mask,mask的方法有。原创 2023-06-04 16:58:52 · 142 阅读 · 1 评论 -
P23~25 Finetune VS Prompt (不推荐看)
instruction-tuning 给机器训练时看各种各样的指示(范例),然后看人给机器指令后做出的回应。CoT的思路是在给出范例的时候顺便给出推论的一些过程,期待看到新问题时,能自己写成推论过程再写出答案。in-context learning 给模型例子(问题的描述),通过例子来学习,不过效果有点玄学。Bert通常都是在期待1的情况下使用,我们通过改造将其发展成为一个专才。不同点在于,GPT玩的是文字接龙,而BERT玩的是文字填空。这几节课有很多这样的图表,看的一知半解的。原创 2023-06-03 23:27:06 · 4915 阅读 · 0 评论 -
P20 CNN
每一个输入都和下一层的neuron是全连接,每一条边都会有一个weigh,则单其中一层的weigh就有。虽然他们的weigh是一样的,但他们field所涵盖的输入不一样,最后的结果也不用担心出现雷同。我们输入的是向量,一张图片可以看作三维的data,宽高占2维,RGB这三种颜色的图片占第3维。我们真的需要每一个field都有侦测特征的neuron吗,他们做的事情都是重复的。现在问题是这些侦测鸟喙的neuron干的活是一样的,只是他们的范围不同。原创 2023-06-01 16:57:09 · 72 阅读 · 0 评论 -
P18 +19 (选修) Gradient Descent + Backpropagation
蓝色:稍微小一点的学习率,虽然最后也能到达正确结果,但因为每一次的步幅太小,所以会花费更多的时间。该方法下,计算z1和z2要知道z3和z4,一直要计算到y1和y2,所有的z都要使用y1和y2。那么反过来先算y1和y2,每一次z的计算都是不断的从后往前使用上一层(也就是右侧)的z。绿色:稍微大一点的学习率,直接跨过了最低点,但会不停的在附近来回变换,但就是无法抵达。要求当前,就不断的从后面开始找,直到能找到为止,有点自后向前解决问题的感觉。简洁写法为黄色方框内,其中的C为老师笔误,应该是L,对L求偏微分。原创 2023-05-31 17:53:27 · 83 阅读 · 1 评论 -
P17~ brief introduction of DL
以方块中的data为例,输入1和-1,分别与对应边上的weigh相乘在相加得出和为3(1*1+(-1*-2)=3),在加上base值为1,最后结果为红字的4,在通过sigmoid function得出0.98。参照以上方法,由于已经通过训练data已知所以节点的weigh和base,所以可通过输入初始的1和-1,经过多层的该方法计算,得出最后的输出结果为0.62和0.83。可以拿矩阵来表示一层的运算 ,蓝框为每一层的输入,黄框为weigh,绿框为base,红框为sig的输入。例子 手写数字的识别。原创 2023-05-28 23:04:01 · 73 阅读 · 0 评论 -
23春ML课程
L()本身也是一个函式,用来评定输入的函式f1的效果,我们称之为Loss function。相当于找合适的Modle,用老师课上讲的话,不同modle就相当于不同候选函式的集合。课上的例子,用大木博士已经标注好的数据与通过f1输出的数据的差距大小来评定f1的好坏。需要不断的调参数,一个好的演算法最好可以对超参数不敏感,对不同的参数都可以有好的结果。在H中可以让L的值越小越好,一般来说找不到最低的那个,所以我们期望能越低越好就行。研0学习笔记自用,目前跟李沐大神的课有点难,换一个李宏毅的课接着学后在去看。原创 2023-05-25 17:40:26 · 62 阅读 · 1 评论