NLP
文章平均质量分 76
comli_cn
算法工程师
展开
-
load_dataset加载huggingface数据集失败
这种加载方式可能会显示因为连接问题导致失败,此时可以在hugging face里面找到对应的页面下载下来。原创 2023-06-14 17:19:18 · 2623 阅读 · 4 评论 -
FaceBook-NLP工具Fairseq
1. 简介作为一个通用的序列建模工具,fairseq可以在多个自然语言处理任务上使用,如机器翻译、自动摘要、语音识别等文本生成任务,或者BERT、GPT等语言模型的训练;同时fairseq还实现了目前常用的多数模型,如RNN、CNN、Transformer、RoBERTa、XLM等。除了大量内置的任务和模型,fairseq还提供了极为简洁的接口,以便于使用者扩展已有模型、验证新的想法。开源代码:https://github.com/pytorch/fairseq/tree/v0.10.1文档:ht原创 2022-05-17 19:04:55 · 2085 阅读 · 0 评论 -
最短编辑距离和最短编辑路径
1. 题目求出两个字符串的最短编辑距离,及最短编辑路径。2. 代码# 计算两个字符串的最小编辑距离def min_ed(source_str, target_str, source_len, target_len): # 初始化matrix matrix = [] for i in range(source_len + 1): matrix.append([]) for j in range(target_len + 1):原创 2022-05-02 18:45:43 · 904 阅读 · 0 评论 -
论文阅读笔记——FastCorrect2
1. 引述考虑到语音识别模型往往可以给出多个备选识别结果,研究员们还进一步提出了 FastCorrect 2 来利用这些识别结果相互印证,从而得到了更好的性能。FastCorrect 1和2的相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。当前,研究员们还在研发 FastCorrect 3,在保证低延迟的情况下,进一步降低语音识别的错误率。2. 存在的问题由于语音识别模型往往会在语音模糊不清或者存在同(近)音字的情况下出错,所以如果纠错模型能够得到这方面的信息,那么就可以在原创 2022-04-15 00:45:09 · 3405 阅读 · 10 评论 -
论文阅读笔记——FastCorrect
编辑对齐( Edit Alignment)如上图所示,我们的源句子为“BBDEF”,目标句子为“ABCDF”,而我们在进行变换操作的时候是按照token粒度进行变换的,在这个例子中就是按照字母粒度进行变换的。我们一共有三种变换的方式:token插入,token删除,token替换。从句子S=(s1,s2,⋅⋅⋅,sM)S = (s_1, s_2, ···,s_M)S=(s1,s2,⋅⋅⋅,sM)到句子T=(t1,t2,⋅⋅⋅,tN)T = (t_1, t_2, ···, t_N)T=(t1,t原创 2022-04-13 10:15:32 · 3316 阅读 · 0 评论 -
使用LDA分类器对邮件进行分类
1. 简述LDA线性判别分析(linear discriminant analysis, LDA)是最直接和最快的分类模型之一,是一种有监督的算法。模型的训练可分为3步:(1)计算某个类(如垃圾短消息类)中所有TF-IDF向量的平均位置(质心);(2)计算不在该类(如非垃圾短消息类)中的所有TF-IDF向量的平均位置(质心);(3)计算上述两个质心之间的向量差(即连接这两个向量的直线)。2. 例子下面是一个例子:import pandas as pdfrom nlpia.data.loade原创 2022-03-05 21:09:54 · 1071 阅读 · 0 评论 -
TF-IDF原理及应用
1. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率),是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除原创 2022-02-20 17:48:09 · 1080 阅读 · 0 评论 -
如何进行word embedding(tensorflow实现)
1. 什么是word embedding(1)从word到num我们的自然语言,不管是中文还是英文都不能直接在机器中表达,此时就要将自然语言映射为数字。要映射成数字就要有字典,所以一般会先构建词典,举例如下:word_dict = {"我":0, "你":1, "他":2, "她":3, "是":4, "好":5, "坏":6, "人":7, "天":8, "第":9, "气":10, "今":11, "怎":12, "么":13, "样":14,原创 2022-01-29 18:01:10 · 2512 阅读 · 2 评论