自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 TypeError: not a string

self.tokenizer = AutoTokenizer.from_pretrained(args.bert.location, use_fast=False),把use_fast=False删掉,改为self.tokenizer = AutoTokenizer.from_pretrained(args.bert.location)

2023-09-14 22:31:02 558

原创 ERROR: Failed building wheel for tokenizers

一直报错: ERROR: Failed building wheel for tokenizers。检查了一下python版本3.9,改为3.6版本后成功下载。想下载tokenizers==0.8.1.rc2。

2023-09-02 17:10:45 696

原创 第19次周报

本周我读了两篇关于自然语言处理的综述,在第一篇文章中,作者提出了adapter modules,一种高效的参数更新方式,只训练少量参数的情况下达到与微调全部参数的效果相似。在另一篇文章中,作者设计了一个超大预训练模型T5,然后主要工作是把NLP任务转换成文本到文本格式的统一框架,该框架在统一大多数现有NLP任务方面表现出了巨大的潜力。对大型预训练模型进行微调是自然语言处理中一种有效的传递机制。然而,在存在许多下游任务的情况下,微调是参数效率较低的:每个任务都需要一个全新的模型。

2023-04-02 22:24:40 207

原创 18次周报

This week I read two review about the natural language processing .In the first article,the authors token a look into the history of pre-training to indicated the core issue of PTMs, and meanwhile revealed the crucial position of PTMs in the AI development

2023-03-26 22:23:20 258

原创 第17次周报

这周我读了一篇关于提示学习的综述,在这篇文章中,作者总结并分析了提示学习的几种工程和相关技术,并认为基于提示的学习是一种有前途的新范式,根据这篇文章,我对提示学习这个领域有了基础的了解。

2023-03-19 21:26:52 147

原创 第16次周报

这周我读了一篇关于bert模型的文章,bert是一个预训练的语言模型,由多个双向的transformer编码器组成,bert在概念上更简单,而且在实验上表现更好,它可以被用于处理多个NLP的下游任务上。实验证明,bert比以前的模型效果更好。此外,我还对transformer模型的细节进行了学习。

2023-03-12 22:14:27 134

原创 第15次周报

本周我学习了一篇关于Transformer模型的文章,因为ChatGPT 使用的预训练模型 GPT,是在 Transformer 中的 decoder 基础上进行改造的。该文章的创新点在于Transformer模型基于注意机制并完全摒弃了RNN和CNN。实验证明,Transformer比以前的模型效果更好。此外,我还计算了该模型的结构。主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络,且都包含一个encoder和一个decoder。

2023-02-26 19:33:13 82

原创 第14次周报

本周学习了一篇文章,该文章提出了一种有效的数据增强方法–text smoothing,它主要是把句子从独热编码的表示转换为可控的平滑表示。在缺乏数据的情况下表明,text smoothing的性能大大优于各种主流数据增强方法。此外,text smoothing可以进一步与各种数据增强方法相结合,以获得更好的性能。本周因为考试耽误了不少时间,下周会继续深入研究时序模型和阅读NLP相关论文。

2023-02-19 21:01:07 131

原创 第13次周报

一篇关于引入注意力机制处理长句子的文章被我学习了。在文章中,作者引入了注意力机制拓展了encoder-decoder模型,它不试图将整个输入序列编码成一个定长的向量,相反,它将输入序列编码成向量,在大程度上提高了模型处理长句子的能力。神经机器翻译是最近提出的一种新的机器翻译方法,神经机器翻译的目标是建立一个单个的神经网络,可以共同调整,以最大限度地提高翻译性能。

2023-02-05 21:27:15 82

原创 第12次周报

本周学习了一篇使用LSTM结构解决自然语言推理问题的文章。在这篇文章中,作者使用BiLSTM和tree-LSTM来搭建网络解决自然语言推理问题:即能否从一个前提p中推导出假设h?

2022-12-11 22:40:48 109

原创 第11次周报

This week, a classic article about the seq2seq structure was read,This network structure better solves the problem of sequence mapping,The authors improved the performance of LSTM by inputting word inversion of input sentences。Moreover, the propagation for

2022-12-04 22:21:38 82

原创 第十次周报

本周我阅读了一篇关于文本识别和检测的综述型论文,并且我分析了循环神经网络的数学公式,这篇综述论文最大的亮点是总结了该领域存在的问题,我对作者提出的问题进行了思考。

2022-11-27 22:51:19 230

原创 第九次周报

本周我阅读了一篇关于文本识别和检测的综述型论文,并且我学习了循环神经网络。这篇综述论文总结了许多其他文本识别和检测的论文的数据和结论,但文章太长了导致我没看完,在下周我将详细汇报从中学到的内容。

2022-11-20 22:46:20 134

原创 第八次周报

本周阅读了下述三篇经典卷积神经网络论文,并复现了代码。实验出现了过拟合的现象,通过研究发现不仅与batch_size有关,还跟数据的数量有关,我调整了batch_size以及采用迁移学习解决了问题。

2022-11-13 22:16:00 712

原创 第七次周报

在这周的工作中,我阅读了一篇使用卷积神经网络进行文本分类的文章,该文章提出的框架使用小数据集对社交媒体帖子进行分类,并适用于多语言分类。

2022-11-06 22:47:45 214

原创 第六次周报

本周对cnn的经典模型LeNet5进行了解,主要工作放在对tensoflow的学习,还阅读了《Drug-Drug Interaction Extraction via Convolutional Neural Networks》,这篇文献设计的系统是基于cnn的作者提出了一种基于cnn的DDI(药物相互作用)提取方法。使用Word嵌入和位置嵌入来分别捕获单词的语义信息和单词与两种药物之间的关系,用来表示DDI(药物相互作用)实例。

2022-10-30 22:51:52 126

原创 第五次周报10.23

本周继续研究卷积神经网络,主要解决清楚了卷积的数学性质和物理意义以及相关问题,以及阅读了《Striving for Simplicity: The All Convolutional Net》,这篇文献围绕着“池化层可否被替代”进行讨论。通过这些学习,对卷积神经网络的了解更深刻了。

2022-10-23 22:00:25 747

原创 第四次周报

本周用三种方法手写数字识别,并对比了三者之间的优缺点,明白了为什么使用softmax作为激活函数,为什么用交叉熵作为损失函数,以及推导了交叉熵的公式

2022-10-16 23:24:52 139

原创 第三次周报10.9

本周重点学习神经网络的前后向推导

2022-10-02 22:48:14 313

原创 第二次周报9.25

感知机是二类分类的线性分类模型,w是权重,x是特征,b是偏置,目标是得到能将训练数据进行线性划分的超平面,也就是得到w和b。

2022-09-25 22:24:52 379

原创 2022.9.16 第一次周报

AI数字人第一次周报

2022-09-16 22:45:37 620

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除