自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 n5语法合集

既有特殊形式又可用于“お~になります”形式的有“食べます”“飲みます”两个动词,其特殊形式“召し上がります”比起“お~になります”形式表示的敬意更深。如“せっかくですから”“せっかくですが・・・”当别人劝说自己做某事时,接受其好意时用“せっかくですから”,拒绝时则用“せっかくですから”。不过,二类形容词和名词的过去否定形式“~ではなかった”后续“たら”时,要去掉其中的“は”变成“~でなかったら”。意思与“”相似, “”可用来接续与前句完全相反的内容,而“”则能用来表示对前句内容的部分限制或补充。

2024-10-08 23:09:01 1046

原创 9.11学习日记

是一个用于创建一维张量的函数,参数说明:start: 起始值(默认是 0)end: 结束值(默认是 None,即生成 start 到 end 的值)step: 步长(默认是 1)例如就是生成一个从 0 开始到 11 结束的序列。

2024-09-12 00:42:24 448

原创 9-10学习日记

BERT 输入的语句将由两个句子构成,其中,50% 的概率将语义连贯的两个连续句子作为训练文本(连续句对一般选自篇章级别的语料,以此确保前后语句的语义强相关),另外50% 的概率将完全随机抽取两个句子作为训练文本。例如:连续句对:[CLS]今天天气很糟糕[SEP]下午的体育课取消了[SEP]随机句对:[CLS]今天天气很糟糕[SEP]鱼快被烤焦啦[SEP]其中 [SEP]标签表示分隔符。[CLS]表示标签用于类别预测,结果为 1,表示输入为连续句对;结果为 0,表示输入为随机句对。

2024-09-10 21:18:37 560

原创 9-8学习日记

之前说到transform是编码器解码器的结构,而gpt只使用了transform的解码器,在序列生成时利用自回归方式进行文本生成,BERT 只使用 Transformer 的 编码器,通过双向机制和 MLM 来进行语言理解任务。(1)自回归:给定一部分序列,预测下一个单词。模型每次生成一个词,并将其作为输入继续预测下一个词(2)双向机制:BERT 在训练时同时考虑输入序列中每个词的左右上下文信息,使其能够更好地理解句子的语义。

2024-09-09 17:08:31 273

原创 9-7学习日记

通过已经生成的词和源语句做自注意力,确定源语句中哪些词对后续的生成有帮助。解决了传统的seq2seq模型的遗留问题。传统的seq2seq是用lstm做编码器和解码器的,有两个问题:1.lstm本身不合理,当碰到长序列时,可能会发生信息在序列的不同部分之间传递时会逐渐丢失的问题2.传统的lstm解码器每一次都会用编码器的全部信息做处理,这意味着每一步的计算都需要访问整个上下文向量,这在长序列中可能会导致计算效率低下。

2024-09-08 01:16:15 359

原创 9-6学习日记

用一句话来说,Transform 是一种将输入的词向量通过编码器进行处理,然后将其生成的隐藏表示传递给解码器,最后输出新的词向量或序列,这些词向量符合我们所需的任务目标(如翻译、生成文本等)

2024-09-07 15:53:17 529

原创 9.4学习日记

掩码自注意力机制是在自注意力机制的基础上,通过引入掩码来控制模型在计算注意力权重时所能看到的信息范围。其主要目的是在序列生成任务中,防止模型在预测当前位置的输出时“偷看”未来的信息,确保模型只能利用当前位置之前的信息进行预测。

2024-09-05 23:41:22 283

原创 9.3学习日记

这就好像人在看美女帅哥照片的时候,不自觉的会把目光聚焦在某些地方。在深度学习中,注意力是根据输入数据的内容动态地分配权重,关注更重要的部分。

2024-09-04 20:08:25 441

原创 8.28学习日记

使用Word2Vec存在一个巨大的缺陷,那就是无法解决多义词问题,比如苹果既可以表示吃的苹果,也可以表示苹果公司这个苹果,但是二者词向量相同,这就无法进行区分了,由此提出的ELMo模型就是为了解决这个问题。

2024-08-31 12:59:39 671

原创 8.27学习日记

所谓预训练语言模型,即先使用独热编码,再使用Word2Vec预训练好的Q矩阵直接得到词向量,然后进行接下来的任务。当然这是早期的做法,后面的bert、transform等不仅仅是下游任务发生了变化,对得到词向量也做了处理。

2024-08-29 00:06:23 406

原创 8.26学习日记

感知机(Perceptron)是一个基本的线性分类器,是最早的人工神经网络模型之一。它可以用于二分类问题,主要用于学习将数据分成两个类别的超平面。原理:1.感知机接收一个输入向量,每个输入特征x都有一个对应的权重 w2.计算输入向量和权重的线性组合,再加上一个偏置项后构成Z=WX+b,其中W是权重向量,X是输入向量3.使用激活函数进行处理,感知机用的是阶跃函数,这样输入向量会被分为正或负说白了就是一堆向量通过这个公式得到了一堆值,然后根据阶跃函数分成正负。

2024-08-27 00:27:33 467

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除