emmbedding
文章平均质量分 78
Macropodus
最后一次为理想而战。安知南山桂,绿叶垂芳根。何须浅碧深红色,自是花中第一流。
展开
-
near-synonym, 中文反义词/近义词(antonym/synonym)工具包
near-synonym, 中文反义词/近义词(antonym/synonym)工具包.原创 2024-03-15 19:57:21 · 975 阅读 · 0 评论 -
汉字字形/拼音/语义相似度(单字, 可用于数据增强, 特别是文本纠错csc)
汉字字形/拼音/语义相似度(单字, 可用于数据增强, CSC错别字检测识别任务(构建混淆集))原创 2024-02-21 09:46:25 · 527 阅读 · 0 评论 -
文档理解-layoutxlm-layoutlmv3
# 文档理解-layoutxlm-layoutlmv3-实验## 一、总结-summary - layoutxlm/layoutlmv3模型比较敏感, 不怎么稳定, 尤其是对lr很敏感, 2e-5至5e-5;原创 2022-10-26 08:56:38 · 2332 阅读 · 0 评论 -
自然语言表示简史(BERT/ELMO/Word2vec/LDA/Bow/Ohehot,词向量、句向量、优缺点、应用与解决的问题)
一、自然语言表征与计算机表示 自然语言是指一种人类社会中自然地随文化演化的语言,聪明的人类经过万年的积累,并通过后天良久的学习才能理解语言的魅力和含义,机械的计算机当然不能如此容易地表达出来。 要了解自然语言的计算机表示,我们首先从发展、工业落地更加成熟的图像领域说起,图像使用非负数的矩阵表示像素点,是低层次的,连续的数据和特征。图像的任务,如分类,相似度,目标检测...原创 2019-12-02 23:44:13 · 4646 阅读 · 2 评论 -
bert中文分类(win10)报错: ResourceExhaustedError:OOM when allocating tensor of shape [21128,768] and type
报错: ResourceExhaustedError:OOM when allocating tensor of shape [21128,768] and type float今天跑bert分类训练的时候遇到的bug我的bert分类项目地址(有数据,本地win10可运行):https://github.com/yongzhuo/bert我另外一个项目bert分类实例,可predict...原创 2019-01-10 10:19:16 · 5305 阅读 · 14 评论 -
bert中文分类实例win10
bert分类实例,在本地win10下我的bert分类项目地址(有数据,本地win10可运行):https://github.com/yongzhuo/bert,但是预测调用好像不方便,我另外一个项目bert分类实例,可predict,很方便:https://github.com/yongzhuo/nlp_xiaojiang/tree/master/ClassificationText/be...原创 2019-01-10 10:42:01 · 5531 阅读 · 12 评论 -
Xlnet句向量实现(embedding)与句子相似度计算
一.Xlnet概述 Xlnet是bert预训练模型之后NLP领域的又一重大进展,它充分吸收了Bert的双向语言模型(自编码-MaskLM机制)、预训练+Finetun机制(Transformer特征抽取)、大规模语料训练经验(corpus)、句子级别表征(sentence-level representation)等成功经验,开创性的引入Permutation Language...原创 2019-08-28 22:07:04 · 4145 阅读 · 0 评论 -
XLNET中文文本分类
一.Xlnet概述 Xlnet,自BERT预训练-微调模式开创以来,这个自然语言处理NLP中的又一重大进展。Xlnet融合了自回归(AR,单向语言模型)、自编码(AE,双向语言模型)等语言模型特征,采用最先进的transformer特征提取器(transformer-xl,利用分割循环机制和相对位置编码进行高并发-超长文本处理),开创性地提出了排列语言模型(Permutation...原创 2019-08-29 23:38:31 · 6195 阅读 · 11 评论