nlp
文章平均质量分 96
Wennnwin
这个作者很懒,什么都没留下…
展开
-
Transformer源码注解
transformers代码详解及理解,encoder,decoder,注意力机制,位置编码原创 2022-07-15 10:34:14 · 960 阅读 · 0 评论 -
python学习笔记4(模块
python学习笔记4(模块)一、模块1.1 import语句1.2 __name__属性三级目录一、模块1.1 import语句1.2 __name__属性 如果我们想在模块被引入时,模块中的某一程序块不执行,我们可以用__name__属性来使该程序块仅在该模块自身运行时执行。# Filename: using_name.pyfrom jieba import lcutif __name__=='__main__': a='我真的好喜欢你' s= lcut(a,cut_all=Tru原创 2022-05-07 16:09:09 · 54 阅读 · 0 评论 -
nlp中TF-IDF模型和python实现
nlp中TF-IDF模型和python实现一、文本向量化存在的不足二、TF-IDF原理概述三、TF-IDF算法实现3.1 CountVectorizer+TfidfTransformer的组合方式3.2直接调用TfidfVectorizer一、文本向量化存在的不足 英语为例,I come to China to travel。如果将统计词频后的特征作为文本分类的输入,那么come、China、Travel各出现一次,但to出现两次。但是to的重要性却比词频为1的China、travel要低很多。二、原创 2020-10-27 11:40:26 · 533 阅读 · 0 评论 -
中文分词jieba学习笔记
中文分词jieba学习笔记一、分词模式二、自定义词典2.1 命令2.2 使用方式三、关键词抽取一、分词模式二、自定义词典2.1 命令 jieba.load_userdict(filename) filename为自定义词典的路径2.2 使用方式 在使用的时候,词典的格式和jieba分词器本身的分词器中的词典格式必须保持一致,一个词占一行,每一行分成三部分,一部分为词语,一部分为词频(可以省略),最后为词性(可以省略),用空格隔开。三、关键词抽取...原创 2020-10-27 11:39:25 · 335 阅读 · 0 评论 -
服务器上用SQuAD进行Bert的总结
服务器上用SQuAD训练Bert总结一、pytorch版本的Bert二、no module named xxx三、RuntimeError: CUDA error: all CUDA-capable devices are busy or unavailable四、一、pytorch版本的Bertgithub上已经有现成的代码,拉取到本地(为了后续基于transformers的学习我将整个工程都拉取了):git clone https://github.com/huggingface/transfor原创 2020-10-27 11:36:39 · 2216 阅读 · 0 评论 -
两年来预训练模型(PTM)的技术进展
预训练模型一、预训练模型中的强基准:RoBERTa二级目录三级目录一、预训练模型中的强基准:RoBERTa二级目录三级目录原创 2020-10-13 20:22:36 · 1323 阅读 · 0 评论 -
从Word Embedding到Bert模型
从Word Embedding到Bert模型一、Word Embedding1.1 神经网络语言模型(NNLM)1.2 Word2vec二、ELMO2.1 ELMO的第一阶段-预训练2.2 ELMO的第二阶段三、GPT3.1 GPT的第一阶段-预训练3.2 GPT的第二阶段四、BERT4.1 BERT的第一阶段-预训练4.2 BERT的第二阶段一、Word Embedding注意: 1、word embedding相当于预训练,将onehot层到embedding层的参数用矩阵Q初始化了。 2、使用原创 2020-10-13 13:16:05 · 623 阅读 · 0 评论