机器学习基础
文章平均质量分 77
包含机器学习的各种基础知识,包含理论知识和代码知识
追赶早晨
这个作者很懒,什么都没留下…
展开
-
李宏毅机器学习(一)基本概念介绍
学习内容这是第二次看机器学习的内容,所以这里主要记录的是让我印象深刻的知识点;3.Optimization问题1: 为什么学习率在训练的时候要调整?因为刚开始时一般远离最优点,所以刚开始的时候我们要选择较大的学习率,后面再调整学习率,所以会有随着epoch值改变的动态学习率;问题2:为什么loss有些时候是负的?因为你斜率一定的时候,跨度大了,必然会有负的;问题3: 学习率是啥?就是梯度前面的东西;问题4: 两个参数怎么更新呢?梯度是可以帮助你自动计算的;改进原创 2021-07-29 20:46:43 · 356 阅读 · 0 评论 -
李宏毅机器学习(八)ELMo、BERT、GPT、XLNet、MASS、BART、UniLM、ELECTRA、others
怎么得到这个pre-train好的模型呢?Pre-training by Translation(翻译)Context Vector(CoVe):Embedding的words必须要考虑上下文! 有一个方法是用基于Translation的Model! 就是用Translation这个任务间接的训练model! 为什么不用Summary等任务作为工具呢,因为summary是提取某些word的重要性,那么不能做到对所有的word一视同仁! 同时该任务的缺点也在于需要大量的成对的数据,我们不可能有很多的数原创 2021-08-13 17:27:40 · 1576 阅读 · 0 评论 -
李宏毅机器学习(五)Transformer
学习内容前情提要Sequence-to-sequence(Seq2Seq)输入是一个句子,输出长度不定; 下面的第一个是语音辨识,第二个是机器翻译,第三个是语音翻译。这三个都是独立的任务。第三个是语音翻译,就是语音输入一个国家的语音,最后输出另一个国家的文字; 为什么需要第三个,因为第三个貌似可以根据前两个表示出来,这是因为有些国家的语音是没有文字的,那么这时候就需要语音翻译。硬train我们以Hokkien(台语、闽南语)为例训练网络:注意语音翻译和语音辨识是不一样的! 所以我原创 2021-08-05 08:50:14 · 1069 阅读 · 1 评论 -
李宏毅机器学习(十一)meta-learning和ML一样是三个步骤
Meta-learning就是教会它怎么学!大家以为AI都是很牛,但其实就是在调参,在工业界怎么样子调参呢? 使用1000GPUs,而学业界只有一张! 我们知道Machine learning可以学出来,那么hyperparameters是不是能学出来呢?我们回顾一下Machine Learing!其实就是三个步骤:这里,我们定义了函数f(θ\thetaθ),我们需要找到那个使得L(θ\thetaθ)最小的θ∗\theta^*θ∗! 同时使用fθ∗f_{\theta^*}fθ∗成为最终的模型训练!原创 2021-08-31 21:05:54 · 650 阅读 · 0 评论 -
李宏毅机器学习(二)自注意力机制
学习内容本文以NLP为基础来介绍自注意力机制,而没有用图像为基础,但是其实两者都是相同的。在图像中我们可以将图像切块(块的划分是自定义的),然后计算块与块之间的关系;这里介绍了self-attention 的由来的应用这里有几个问题需要说明:常问的: 为什么是用dot-product来获取关系我的理解是,如果两个特征高度相关,那么这两个特征之间的相似元素必然很多,那么点积之后的值就会很大,也就是关系型很强; 而且使用dot-product来计算关系是一个常用的方法。1. 预备知识1.1原创 2021-07-31 17:22:27 · 924 阅读 · 0 评论 -
李宏毅机器学习(七)自监督学习(二)BERT奇闻轶事
WHY does BERT work?BERT会考虑上下文! 进行Word Embedding!将一个单词表示成向量,比如苹果单词中的“果”和苹果公司中的“果”,在经过Embedding后虽然同样是同一个词,但是由于上下文不同,所以vector距离是远的! 不一样的表示! 但是相同语境的“果”则距离比较近!接下来我们计算两个果的相似度!可以看出对角的关系还是比较近的为什么你能知道一个单词的意思呢? 这个人说了: 你要知道一个单词的意思,就得根据它的上下文决定的! 所以即使原创 2021-08-11 09:38:37 · 249 阅读 · 0 评论 -
李宏毅机器学习(三)Word Embedding
学习内容前情提要使用一个vector来表示一个word,怎么做?1-of-N Encoding缺点: dog 和 cat是不能归为一类的,只能单独的表示Word CLass将同类别的归为一类; 但是更高层的token表示不清. 比如dog + flower = creatureWord Embedding将word映射到高维度上,通常有50维度、100维度这个样子的dimension; 但是也比-of-N Encoding维度少的多,这是dimension reduce的化身。 而且不原创 2021-08-04 10:19:08 · 597 阅读 · 0 评论 -
李宏毅机器学习(四)Spatial Transformer Layer
学习内容架构; 目的就是克服CNN的旋转和缩放不变性的缺点的!前情提要CNN is not invariant to scaling and rotation;CNN对缩放和旋转不是不变的;也就是说CNN是变化的,不具有旋转和缩放不变性;因为如果你将某个小狗缩放到一张图片的小部分或者是将3旋转为m,那么CNN可能会给你识别成金拱门;所以怎么消除这个问题呢?添加一个NNlayer! 将目标放大! 当然,它也是一个neural networkSpatial Transformer Laye原创 2021-08-04 11:21:38 · 638 阅读 · 0 评论 -
李宏毅机器学习(六)自监督学习(一)
学习内容前情提要BERT与芝麻街这些都是BERT的组件BERT与进击的巨人BERT(340 M 参数)ELMO(94M)GPT-2(1542M)Megatron(8B)T5(11B)Turing NLG(17 billion)GPT-3(170 billion)Bert的基本知识前提监督学习: 有标签自监督学习:由于没有标签,我们需要将文章的某一部分作为特征,另一部分作为标签,使得特征经过模型后和标签距离更近;无监督学习: 就是没有标签喽!Masking Input原创 2021-08-09 16:18:54 · 1041 阅读 · 0 评论 -
李宏毅机器学习(七)Bert and its family
技术前瞻在预训练模型上训练Bert,并在我们的数据上fine-tune所需要的模型!就像学习英文一样! 应该是通读英文文章后再去做题,而不是先做题再读懂文章!Pre-train ModelEmbedding刚开始是 Word2Vertor,但是不能所有的单词都这样的! 太多了要不,用字母和偏旁?但是你这样下去,是有词义歧义的!所以才有了Contextualized Word Embedding! 这里中间的Model可以选择是LSTM、Self-attention layers或者是T原创 2021-08-12 22:27:08 · 373 阅读 · 0 评论 -
李宏毅机器学习(八)自编码器(Auto-encoder)
前情提要什么自监督学习?你必须想一些不需要标注资料的任务,比如做填空题,比如预测下一个任务!原创 2021-08-11 14:30:59 · 1250 阅读 · 0 评论 -
李宏毅机器学习(七)GPT的野望
前情提要前面我们有说,BERT做的是什么? Bert做的是填空题! GPT做的是什么? 做的是预测接下来要出现的Token是什么? 它里面的结构有点像Transformer中的DecoderGPT最有名的就是生成了一个关于独角兽的假新闻! 同时也说明了它的作用就是可以写出一个文章GPT系列很难去训练,因为太大了,也很难去fine-tune! 但是GPT有一个很狂的想法: 就是说我们只给你少量或者没有参考样本,在给出你提示后,让你去学习出正确的答案!给出了42个任务! 这些是42原创 2021-08-11 10:02:34 · 259 阅读 · 0 评论 -
李宏毅机器学习(十)GPT-3
前情提要论文名称: Language Models are Few-shot learners但是GPT-3的缺点在于,太过巨大! 它有多大呢? 原来最大的时候是Turing NLG,有17B,而GPT-3是它的10倍!对GPT-3的评价:GPT-3要干什么事呢? 它是为了ZERO-shot的learning! 所以你现在要训练你的BERT还是需要训练一些资料的! 而GPT-3的目的就是说不再需要fine-tune,直接一个模型就解决所有!!!GPT系列的野望就是给出你问题,你在读了原创 2021-08-17 14:08:14 · 679 阅读 · 0 评论 -
李宏毅机器学习(九)Multi-lingual BERT
Multi-lingual BERT输入多种语言来训练BERTZero-shot Reading Comprehension首先模型是在104种语言上进行训练的!并且以English的QA来Fine-tune我们的模型,最后在回答问题的时候使用别样的语言!原创 2021-08-16 14:02:57 · 432 阅读 · 0 评论 -
BN / LN / IN / GN /
BN/LN/IN/GN原创 2022-08-20 01:38:28 · 284 阅读 · 1 评论 -
贝叶斯算法
1. 贝叶斯由来贝叶斯为了解决“逆概”问题提出的2. 贝叶斯要解决的问题正向概率 袋子里装着N个黑球和M个白球,伸手取摸球,摸到黑球和白球的概率有多大逆向概率 袋子里前提不知道有黑白球的比例,而是闭着眼睛摸球统计后推测黑球和白球的比例3. why贝叶斯现实世界本身不确定,人类观察是有局限的我们日常所观察只是表面,很多东西都是推测。4. 贝叶斯举例 男生总是穿长裤,女生...原创 2019-05-07 12:45:13 · 397 阅读 · 0 评论