欢桑-CSDN博客

原创成功解决TypeError： TextEncodeInput must be Union[TextInputSequence， Tuple[InputSequence， InputSequence]]

控制台报错：TypeError： TextEncodeInput must be Union[TextInputSequence， Tuple[InputSequence， InputSequence]]对超过最大长度的文本进行截断：如果你不希望增加tokenizer的最大长度，你可以使用参数来将文本截断为最大长度。这样，超过最大长度的部分将被截断掉。解决办法：调整tokenizer的最大长度：你可以通过将参数设置为更大的值，以适应较长的文本。2.数据集中存在空行，检查数据集是否含有空行。

2023-11-13 16:21:30 5261 1

转载文本数据增强方法总结

我们知道，在NLP领域，特别是工业界中，标签数据是很难获得的，很多时候会面临数据量太小的问题，这个时候，文本数据增强可以有效地帮我们缓解这个问题。我本人在今年的科大讯飞AI大赛中也使用了下文提到的一些方法，并提升了5个百分点左右（后续的文章会详细介绍，请持续关注…），可以说效果是相当明显，所以说数据增强方法绝对是值得大家花点时间学习的。本篇文章，我们将介绍常用的文本数据增强方法，并提供相应的参考文献以及使用案例。 EDA是一种简单但非常有效的方法，具体包括随机替换，随机插入，随机交换，随机删除等。代码也

2023-09-25 15:43:42 1402

转载使用Overleaf在论文中插入算法伪代码

【前言】

2023-06-18 13:51:02 5360 2

原创论文阅读 Interpretable Unified Language Checking

大语言模型会产生的不良行为(包括非事实性、偏见性和仇恨性语言)。本文提出了一种可解释的、统一的语言检查(UniLC)方法，用于人类和机器生成的语言，旨在检查语言输入是否真实和公平（将两者结合起来）。用本文提出的方法和结果表明，基于强大的潜在知识表征，LLMs可以成为检测错误信息、刻板印象和仇恨言论的适应性和可解释性工具。这篇文章提出了一种新的方法，称为可解释的统一语言检查，该方法可以同时检测文本中的多种语言错误和问题，并提供可解释的结果。

2023-06-12 18:30:29 1972 1

原创 Towards Identifying Social Bias in Dialog Systems: Framework, Dataset, and Benchmark

在这篇论文中，作者们探讨了对话系统中的社会偏见问题，并提出了一个框架，用于系统地识别和评估这些偏见。他们提出了一个包含多个维度的社会偏见分类体系，并构建了一个大规模的标注数据集，其中包含超过6000个对话样本，用于评估对话系统中的社会偏见。作者们还提出了一个基于度量学习的算法来评估对话系统的社会偏见，并在他们的数据集上进行了广泛的实验。最后，他们提出了一个基于他们的数据集的基准测试，以便更好地评估未来对话系统中的社会偏见。

2023-06-08 09:58:22 253

原创文本生成论文阅读 REALTOXICITYPROMPTS: Evaluating Neural Toxic Degeneration in Language Models

预训练神经语言模型（LMs）容易产生种族主义、性别歧视或其他有毒的语言，这阻碍了它们的安全部署。我们研究了预训练LM在那种程度上会倾向产生有毒的语言，以及可控文本生成算法在防止这种有毒退化方面的效果。本文创建并发布了REALTOXICITYPROMPTS，一个由10万个自然发生的句子级提示组成的数据集，（数据集来自一个大型的英语网络文本语料库，并与一个广泛使用的毒性分类器的毒性评分相匹配）。通过使用REALTOXICITYPROMPTS，我们发现，即使从看似无害的提示中，预训练的LM也会退化成有毒文本。

2023-06-05 19:59:58 1554 1

原创 NLP语料库学习

语料库有的是标记过的（annotated），意味着文本或文档已经标记出监督学习算法的正确响应（例如，用于构建检测垃圾邮件的过滤器），有的则是未标记（unannotated）的，可用于主题建模和文档聚类（例如，探索文本随时间推移潜在主题的变化）。语料库可分解为文档或单个文档。语料库包含的文档大小各不相同，从推文到书籍都有可能，但它们都包含文本（或者元数据）和一组相关的看法。文件可进一步分成段落和语篇（discourse）单元，每个语篇单元往往表达一个单一的思想。

2023-05-30 10:35:09 1693

原创 Hugging Face

Hugging Face还拥有一个庞大的社区，包括研究人员、工程师、学生、开发者等等，他们在Hugging Face平台上共享和讨论各种NLP模型、应用程序、技术和最佳实践。这些库和平台提供了广泛的支持和资源，使得研究人员、开发者和数据科学家能够轻松地构建、训练和使用NLP模型，同时与其他用户分享和协作。Transformers库支持许多流行的NLP模型，例如BERT、GPT-2、RoBERTa、DistilBERT等等，并提供了可定制的预训练模型和微调模型的工具。Hugging Face是一个。

2023-05-29 10:54:07 292

原创 Web server failed to start. Port 8080 was already in use.解决办法

解决办法：1.查看该端口的进程（我的是8080）：netstat -ano|findstr 8080。2.kill该进程：taskkill /pid 8904 -f。它的意思是端口号被占用了。

2023-05-12 10:07:22 167

原创 nlp论文阅读COLD: A Benchmark for Chinese Offensive Language Detection

冒犯性语言检测对于维护文明的社交媒体平台和部署预先训练的语言模型越来越重要。然而，由于缺乏可靠的数据集，这一任务在中国仍处于探索阶段。为此，我们提出了一种用于中文冒犯性语言分析的基准- COLD，包括中文冒犯性语言数据集- COLDATASET和在该数据集上训练的基线检测器- COLD.ETECTOR。我们发现，COLD基准有助于现有资源难以实现的中文冒犯性语言检测。然后，我们使用COLDETECTOR对常用的汉语预训练语言模型进行详细分析。

2023-04-15 17:38:48 2531 3

转载 NLP相关名词概念汇总

上述概念或预训练模型本质上都是为了使得自然语言理解（Natural Language Understanding, NLU）取得更好的效果，以便更好地完成下游任务，或辅助自然语言生成（Natural Language Generation, NLG）任务。

2023-04-04 10:08:23 1396

转载 NLP中CLM是什么意思

大多数现代的NLP系统都遵循一种非常标准的方法来训练各种用例的新模型，即先训练后微调。在这里，预处理训练的目标是利用大量未标记的文本，在对各种特定的任务(如机器翻译、文本摘要等)进行微调之前，建立一个通用的语言理解模型。在本文章中，我们将讨论两种流行的训练前方案，即掩蔽语言建模(MLM)和因果语言建模(CLM)。

2023-04-04 09:04:35 2368

原创文本生成论文阅读DisCup: Discriminator Cooperative Unlikelihood Prompt-tuning for Controllable Text Generatio

传统的prompt tuning可控方法倾向于模仿训练语料中的特征，导致泛化能力不佳；。在本文中，作者提出在训练时使用属性判别器挑选以更高置信度满足期望属性的候选词，并鼓励模型生成这些词。作者多个可控任务进行了实验，结果表明本文的方法优于现有的基准模型。提示：以下是本篇文章正文内容，下面案例可供参考1）本文提出了一种基于unlikelihood训练的prompt可控生成方法。不同于传统的在语料库.上进行下一个词预测，本文使用属性判别器来选择最有可能接近目标属性的词，并远离似然性低的词。

2023-04-03 21:10:03 615 1

原创 ground truth 到底是什么意思？？？

ground truth”这个术语指的是为这个测试收集适当的目标数据的过程。在机器学习中，“ground truth”一词指的是训练集对监督学习技术的分类的准确性。总的来说就是就是把ground-truth当成一个标准，一个看看误差，看看效果好坏的值。简单来说就是有效的正确的数据。

2023-04-03 20:33:30 2890

原创文本生成论文阅读A Distributional Lens for Multi-Aspect Controllable Text Generation

多向可控文本生成是一项比单向控制更具挑战性和实用性的任务。现有方法通过融合从单一方面学习到的多个控制器来实现复杂的多方面控制，但由于各控制器之间的相互干扰，导致属性退化。为了解决这个问题，作者从分布的角度对属性融合进行了观察，并提出直接搜索多个属性分布的交集区域作为它们的组合进行生成。首先用自编码器结构估计属性空间。之后，通过联合最小化到表示不同属性的点的距离来迭代地接近交点。最后，使用基于前缀调优的解码器将它们映射到与属性相关的句子。

2023-04-03 19:17:47 463 1

原创解决 ModuleNotFoundError: No module named pyecharts

使用命令符号安装了pyecharts的，在python路径下import pyecharts也没有问题，但是却运行不出来程序，报错ModuleNotFoundError: No module named pyecharts。

2023-03-30 22:28:31 5042

原创 tsv文件与csv文件的区别以及如何转换

1 csv文件：逗号分隔符文件，可以使用excel打开。逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值。2 tsv文件：制表符Tab分隔文件，可二以使用文本文档打开。

2023-03-15 13:52:24 3702

原创 PyTorch学习笔记

1 Pytorch是一个用于在CPU和GPU上进行深度学习的优化张量库。基于磁带的自动求导系统使PyTorch具有动态图功能。2 PyTorch支持用户在前向过程中dingyiPython允许执行的任何操作。反向过程会自动从图中找到去往根节点的路径，并在返回时计算梯度。3 在计算图中，节点表示张量，边表示节点之间的关系。现存的所有深度学习框架都使用图方法进行计算。4 深度学习的所有框架都建立在自动微分he计算图的基础上，实现的方法分为静态图和动态图。静态图在对提供的数据执行任何操作之前，程序先生称图的

2023-03-13 21:10:08 427

原创深度学习NLP领域文本生成总结

深度学习 Nlp领域总结

2023-03-13 19:38:23 2321

原创文本生成论文阅读Tailor: A Prompt-Based Approach to Attribute-Based Controlled Text Generation

可控文本生成是自然语言处理领域的一类重要问题。现有的可控生成方法通过微调整个语言模型或使用额外的分类器在解码阶段进行控制，但这会导致很高的训练成本或降低生成文本的质量。本文使用prompt完成可控生成的任务，将每个属性视作可训练的连续向量（prompt），但是直接拼接单属性的prompt存在文本质量下降和位置敏感等问题，因此作者通过一个非训练的方法或微调一个可训练的prompt来消除训练与测试阶段的差异，从而完成多属性控制。实验效果表明该方法可以显著提升控制效果，并保证了文本质量。

2023-02-02 21:53:03 1070 1

转载文本生成论文阅读ParaDetox:Detoxifification with Parallel Data

本文提出了一个新颖的文本解毒任务平行数据收集流水线，收集了超过1万个英文毒性句子的无毒复述。本文还展示了该流水线可以用于提取大量得现有得复述语料库，以获得毒性-中性得句子对。本文发布了两个平行语料库用于解毒任务的训练，这是该任务的第一个平行数据集，本文对平行数据收集流水线进行了详细的描述，使其能够快速地为一个新的语言或领域建立、开发平行语料资源。

2023-02-02 16:01:20 828 1

原创文本生成论文阅读 Proactively Reducing the Hate Intensity of Online Posts via Hate Speech Normalization

仇恨言论攻击往往针对宗教、族裔、国籍、种族、肤色、世系、性别或其他身份因素。作者的实验旨在捕捉不同程度和设计的仇恨；把仇恨作为一个总括术语，包括仇恨、虐待和冒犯的重叠定义。提示：以下是本篇文章正文内容，下面案例可供参考存在的两个挑战：1）缺乏平行数据来训练更复杂的生成模型。2）样本中存在隐性仇恨。第一个问题可以通过注释更多的样本来解决（代价昂贵），但处理隐含的仇恨是很麻烦的。在本篇论文中，由于没有明确的仇恨跨度，忽略了隐含的仇恨样本。

2023-01-15 09:20:42 446 1

原创文本生成论文阅读 Controllable Natural Language Generation with Contrastive Prefixes

在传统的用于 NLP 任务的监督学习系统中，输入 x 通常是文本数据，并基于模型 P(y|x;θ) 预测输出 y。但是，监督学习面临的一个主要问题是，即为了训练模型 P(y|x;θ)，必须要有用于训练任务的监督数据，但找到这种适用数据是比较困难的。在 NLP 中，基于 Prompt 的学习方法试图通过学习 LM 来规避这一问题，该 LM 对文本 x 本身的概率 P(x;θ) 进行建模并使用该概率来预测 y，从而减少或消除了训练模型对大型监督数据集的需求。

2023-01-12 14:03:26 752 1

原创 METEOR原理

在评价句子流畅性的时候，用了 chunk 的概念（候选译文和参考译文能够对齐的、空间排列上连续的单词形成一个 chunk，这个对齐算法是一个有点复杂的启发式 beam serach），chunk 的数目越少意味着每个 chunk 的平均长度越长，也就是说候选译文和参考译文的语序越一致。Meteor的特别之处在于，它不希望生成很“碎”的译文：比如参考译文是“A B C D”，模型给出的译文是“B A D C”，虽然每个unigram都对应上了，但是会受到很严重的惩罚。这里的输入数据，要求按字分开。

2023-01-09 00:41:53 586

原创基于Seq2Seq模型的文本生成评价指标解析

文本生成目前的一大瓶颈是如何客观，准确的评价机器生成文本的质量。一个好的评价指标（或者设置合理的损失函数）不仅能够高效的指导模型拟合数据分布，还能够客观的让人评估文本生成模型的质量，从而进一步推动 text generation 商业化能力。

2023-01-08 19:41:15 804 1

转载 BLEU详解及计算

文本生成评价指标BLEU详解以及计算过程

2023-01-06 07:08:45 4247 1

原创深度学习学习笔记总结

这周将深度学习的东西写一点总结吧，也算是对研一的一个小总结，要加油呀呀呀。提示：以下是本篇文章正文内容，寻欢桑知识水平有限，请大家多多批评1.IMDB 是一家在线收集各种电影信息的网站和豆瓣类似，用户可以再上面发表对电影的评价。IMDB数据集御用情感分析的IMDB电影评论二分类数据集，包含25000个训练样本和25000个测试样本，所有影评都被标记为正面和负面两种评价。IMDB数据集地址#导入IMDB模块#导入数据。

2022-12-26 20:45:25 1797 1

原创文本生成论文阅读Enhancing Topic-to-Essay Generation with External Commonsense Knowledge

TEG任务是指给定 topic 集合，生成主题相关、段落集的文本。过去的任务忽略了常识知识，本文通过动态记忆机制将外部知识库中的常识集成到生成器中。因为来源信息的极度不足可能会使生成的文章在新颖性和主题一致性方面质量低下。所以在这篇论文中精心设计了一个记忆增强神经模型，有效地融合了常识性知识。其动机是来自外部知识库的常识可以提供额外的背景信息。

2022-12-25 21:12:56 530 1

原创文本生成论文阅读 Knowledge-based Review Generation by Coherence Enhanced Text Planning

基于知识图谱的增强连贯性文本规划的评论生成。为了丰富文本内容，现有的解决方案通常从知识图谱中学习如何复制实体或三元组。然而，这些方法对如何选择和安排知识图谱缺乏整体的考虑，容易造成文本不连贯问题。为了解决上述问题，作者以实体为中心，利用知识图谱的语义结构提高生成评论文本的连贯性。提示：以下是本篇文章正文内容，下面案例可供参考目前对自己的方向还是不清晰，感觉还是使用关键词增强文本的连贯性比较适合我，也有可能本篇论文我读的不是很懂。

2022-12-24 12:03:03 525 2

原创贝叶斯分类器

贝叶斯在文本分类中的应用：垃圾邮件分类；新闻报道分类；情感极性分类。

2022-12-23 13:33:42 165

原创可控文本生成研现状与技术

可控文本生成目前在聊天机器人，智能问答，新闻撰写，营销文案生成，线上商品标题自取以及简介生成等多种领域发挥了巨大作用。可控文本生成需要模型具有一定的发散能力，而中文文化又博大精深，汉字又是离散的状态，这使得文本生成在建模上更加多样，复杂。传统的文本生成建模一般采用seq2seq，最近几年转向了GAN。提示：以下是寻欢桑做的一点总结欢迎大家批评指正今年一月份能够把这个坑填了。

2022-12-20 21:25:36 2402

转载计算机网络期末复习

计算机网络期末复习资料

2022-12-15 15:26:47 236

原创文本生成论文阅读A Syntactically Constrained Bidirectional-Asynchronous Approach for Emotional Conversation

假设每个生成的回复都包括一个情感关键词与主题关键词。有了两个关键词后，就可以考虑如何生成文本。每次首先生成中间的文本序列，再分别生成剩下的两段文本，最后对这段文本的真实方向进行二分类，输出最终生成的文本。

2022-12-14 16:24:44 435 3

原创输出叉排序树中所有的关键字值不小于key的元素值。判断二叉排序树是否为平衡二叉树

输出叉排序树中所有的关键字值不小于key的元素值。判断二叉排序树是否为平衡二叉树。

2022-12-11 10:10:40 784 1

原创西瓜书第六章支持向量机

对最大化间隔使用拉格朗日乘子法可得到其“对偶问题”。（就是一个求偏导的过程）核函数指所谓径向基函数（Radial Basis Function 简称 RBF），就是某种沿径向对称的标量函数。通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数 , 可记作 k（||x-xc||），其作用往往是局部的 , 即当x远离xc时函数取值很小。其目的是希望通过将输入空间内线性不可分的数据映射到一个高纬的特征空间内使得数据在特征空间内是可分的根据

2022-12-07 13:25:30 474

原创西瓜书第五章神经网络学习笔记

西瓜书第五章深度学习反向传播算法 BP算法感知机与多层网络

2022-12-06 20:31:56 704

原创文本生成论文阅读 Towards Implicit Content-Introducing for Generative Short-Text Conversation Systems

本篇论文实际上是对上一篇论文的优化（seq2BF），使用关键词作为软约束，即关键词不一定出现在生成文本中。本框架有三个部分组成：标准GRU;提示词GRU和融合单元。（标准GRU和提示词GRU不共享信息，标准GRU操作一个一般的解码过程，提示词GRU模仿这个过程，但将预测的提示词作为当前输入。对于融合单元，它结合标准GRU和提示字GRU的隐藏状态以生成当前输出字。实验结果证明了该方法的有效性。）GRU（Gate Recurrent Unit）和LSTM（Long-Short Term Memory）一样

2022-12-06 17:07:06 580 1

空空如也

空空如也