![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 54
自然语言处理
arv1nChen
主语言 python
后端,NLP,CV都有涉及
展开
-
中文语音识别实战(ASR)
本博客主要介绍了1. 语音识别基础知识2. 中文语音识别数据集3. 语音识别常用模型方法4. 自己训练一个中文语音识别模型目录语音识别基础数据集模型wav2vecwhipser训练代码工具代码推理代码单条推理参考语音识别基础音视频开发基础入门|声音的采集与量化、音频数字信号质量、音频码率_量化后的声音信号-CSDN博客数据集包含大陆,香港,台湾等地的语音数据。模型。原创 2024-04-25 11:46:26 · 1331 阅读 · 2 评论 -
pytorch 参数冻结、加载、拓展
pytroch 模型参数冻结,及如何加载部分冻结的模型原创 2024-01-30 17:34:14 · 166 阅读 · 0 评论 -
预训练中文GPT2(包括重新训练tokenizer)
1.训练数据采用了LCSTS数据集,LCSTS_new是中文短摘要最常用的LCSTS短摘要数据集的升级版本,在数据量、质量方面均有显著提升,在信息摘要与提炼的过程中,与原文的事实一致性需要得到重点关注。3.训练数据大约500M,都是短文本,新闻数据,缺乏多样性。可以尝试增加数据多样性,增加文本长度。2.从生成结果上看,自己训练的比原始的更好。原创 2024-01-09 09:17:02 · 963 阅读 · 1 评论 -
GLM模型介绍
GLM通过添加2D位置编码和允许任意顺序预测跨度来改进空白填充预训练,这导致在NLU任务上的性能优于BERT和T5。在NLU、条件和无条件生成的广泛任务中,GLM优于BERT、T5和GPT,并在1.25×参数的预训练模型中获得最佳性能,证明了其对不同下游任务的通用性。:从文随机抽取出span,用【mask】替代,然后把span随机排列,拼接到输入序列的后面,每个span input 开始位置插入【start】,span的输出结束位置插入【end】自回归方式的span预测(片段预测)原创 2023-08-02 11:00:56 · 523 阅读 · 0 评论 -
Toolformer :让AI学会使用工具
把这些结果插入到原文,如果API调用的结果对于预测下一个token有利(不调用API和调用API,损失之差大于于一个阈值,则认为有利),那么就保留这条数据。利用上述步骤构造出一个新的数据集,使用这个数据集(含API调用的文本),去做模型微调,让模型学会何时去生成API调用。解码步骤的时候,模型预测出API调用时,先去执行API,把API的结果拼接到文本中,然后继续解码。:设计设计prompt,让模型生成含API调用的文本(如图3),只保留K个概率最高的API调用。然后执行这些API,拿回结果,原创 2023-08-02 10:58:43 · 136 阅读 · 0 评论 -
皮尔逊(Pearson)相关系数
皮尔森相关系数原创 2023-02-02 10:20:14 · 662 阅读 · 0 评论 -
focal loss 之 pytorch 实现
focal loss pytorch 实现原创 2023-01-09 12:47:08 · 777 阅读 · 0 评论 -
casre: A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
paper: A Novel Cascade Binary Tagging Framework for Relational Triple Extraction原创 2022-11-23 16:27:43 · 161 阅读 · 0 评论 -
模型介绍:UNILM
unilm原创 2022-09-02 14:35:27 · 737 阅读 · 0 评论 -
few shot learning
few shot learning原创 2022-07-28 22:37:46 · 278 阅读 · 0 评论 -
SimCSE 模型
SIMCSE原创 2022-07-21 23:40:30 · 609 阅读 · 0 评论 -
CLUE 基准
clue原创 2022-07-21 10:49:29 · 155 阅读 · 0 评论 -
GLUE 基准介绍
glue原创 2022-07-20 17:06:42 · 675 阅读 · 0 评论 -
BERTem(MTB)
BERTem, MTB,Matching the Blanks: Distributional Similarity for Relation Learning原创 2022-07-18 11:39:39 · 515 阅读 · 0 评论 -
NLP tokenizer (分词器) 介绍
WordPiece,BPE,transformers ,NLP原创 2022-06-20 17:41:27 · 746 阅读 · 0 评论 -
混淆矩阵,精确率,召回率及 sklearn precision_recall_fscore_support函数的使用
混淆矩阵原创 2022-06-09 17:06:23 · 1843 阅读 · 0 评论 -
文本生成评估指标详解及计算(BLEU)
BELU详解及计算实例原创 2022-06-07 16:49:50 · 5598 阅读 · 0 评论 -
python 实现 trie树(字典树)
python 实现 字典树 trie原创 2023-01-12 15:22:27 · 506 阅读 · 1 评论 -
文本向量化表示
几种文本向量化的表示方法1.one-hot2.词袋模型(bag of word)Wikipedia[1]上给出了如下例子:John likes to watch movies. Mary likes too.John also likes to watch football games.根据上述两句话中出现的单词, 我们能构建出一个字典 (dictionary):{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "a原创 2022-05-23 14:45:28 · 308 阅读 · 0 评论