HMTT-CSDN博客

原创 pycharm的debug模式不会在非断点处抛出异常时暂停

pycharm调试（debug）模式下自动在异常处暂停并允许调试的功能非常好用，可以帮助我们快速定位错误并解决。但在远程调试的时候，pycharm的debug模式在非断点处碰到异常时会直接退出，无法暂停。有时候虽然能暂停，但会定位到奇怪的地方。如下图：我这里有个除以0的异常，但debug却定位到了其他地方：这种情况非常莫名其妙，且不知道怎么搜索这个问题。

2024-07-30 16:45:06 580

原创关于transformers库验证时不进入compute_metrics方法的一些坑

就会是false，从而无法进入compute_metrics方法。这样就可以进入compute_metrics函数了。生成式任务如果没有标签字段，即。

2024-07-11 16:47:59 769 1

原创 Q-Learning实战——找房间

样例来自简单来说就是。

2024-07-08 16:42:27 470

原创 CIDEr(Consensus-based Image Description Evaluation)的计算

CIDEr的计算

2024-07-04 15:54:23 1414

原创 trainer使用 torch.utils.data 的 Dataset

在transformers库的Trainer中使用pytorch自带的Dataset类

2024-07-02 16:48:59 508

原创 Automated clinical coding using off-the-shelf large language models

给住院病人分配icd诊断编码通常是专业的人类编码专家的工作。在人工智能领域，主要的方向是通过有监督深度学习模型来进行自动icd编码。然而，学习如何预测大量的罕见编码仍然是临床实践中存在的困难。因此本文尝试利用现成的大语言模型来尝试开发一个零样本和少样本的编码对齐方案，尝试避开特定任务的训练过程。由于无监督的预训练并不能保证对于ICD本体和临床编码任务的准确性，因此本文将任务视为信息抽取。让大语言模型根据提供的编码概念来进行相关提及的抽取。

2024-01-21 20:30:49 762

原创 Graph of Thoughts: Solving Elaborate Problems with Large Language Models

本文提出了思维图Graph of Thoughts (GoT)，是一个用于提升大语言模型提示能力的框架。与之前工作思维链（CoT）、思维树（ToT）类似，但思维图有将大语言模型产生的信息建模为图结构的能力。提出了一种新的方法来增强大语言模型通过网络进行推理的能力。设计了用于实现GoT的模块化框架。展示了几个GoT的使用案例（排序、摘要关键词计数、集合操作、文档合并），并详细说明如何使用基于图的范式来实现它们。评估GoT并展示其相对于现有技术的优势。

2024-01-18 15:52:17 932

原创 Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding

过去的工作通常使用标签注意力来匹配相关的文本片段。本文认为编码的同义词能提供更加丰富的信息，因为电子病历中的表达方式通常与ICD编码的描述不一致。因此作者将ICD编码与UMLS中的概念进行了对齐，并收集了一些同义词。文中样例：编码244.9的icd描述为“Unspecified hypothyroidism “，但在电子病历中通常与”low t4“和“subthyroidism”相关。

2024-01-11 14:48:01 563

原创 LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS

在大模型时代，提示的作用非常巨大，一个好的提示可以在任务中表现出极好的性能。但通常来说最有效的提示是由人手工制作的，需要耗费大量的人工开销。因此本文就尝试让大语言模型自动生提示本并优化提示。

2023-12-18 16:01:47 1615

原创 CESI: Canonicalizing Open Knowledge Bases using Embeddings and Side Information

本文的任务是开放性知识图谱标准化，旨在将开放信息抽取中的实体和关系进行标准化，将相同意义但不同描述的实体和关系归为一类。本文指出，过去的方法需要手动定义特征，并以此进行聚类。这些方法往往非常昂贵且通常只能得到次优结果。因此作者提出了一个新的框架，通过训练嵌入的方式来进行特征提取。

2023-12-18 10:14:39 944

原创 Can LLM-Generated Misinformation Be Detected?

本文讨论**“大语言模型生成的错误是否能被检测出来？”**这个问题，并做了一系列研究实验。大语言模型的出现对自然语言处理领域造成变革性的影响。然而，像ChatGPT这样的大语言模型有可能被用来制造错误信息，这对网络安全和公众信任构成了严重威胁。大语言模型制造的错误信息会比人类构造的错误信息产生更大的危害吗？如何利用大语言模型生成错误信息？人类是否能检测大语言模型生成的错误信息？侦测器是否能检测大语言模型生成的错误信息？

2023-12-11 16:12:23 1180

原创 Low-resource Personal Attribute Prediction from Conversations

本文研究的任务是个人属性预测，旨在通过用户的对话内容，从中推断出用户的一些隐含属性，如职业或爱好。文中为了解决上述问题，提出了PEARL，可以在资源受限的情况下，仅通过未标记的对话数据来预测个人属性。通过一个迭代的基于双词语义的Gibbs抽样过程，AKI模块建立了属性值与主题之间的关联，并优化了双词-属性值相似性分数的计算。PEARL可以在不依赖于标记的语料或外部数据的情况下表现良好，使得它能够低资源情况的也能保持良好的效果，这在实际应用中很常见，因为标记数据往往难以获取。

2023-12-08 10:11:48 422

原创 Iterative Entity Alignment via Knowledge Embeddings

本文的任务是实体对齐，目的是将两个知识图谱的实体和关系进行对齐（假设范围相同）。之前的方法往往依赖于实体的外部知识库，比如维基百科，因此需要花费大量的资源来手动构造特征以完成对齐。本文提出了一个基于联合知识嵌入的方法。根据少量的已对齐实体，将不同知识图谱的实体和关系编码到同一个低纬度语义空间。

2023-12-07 11:02:34 459

原创 PyTorch Lightning基础入门

pytorch_ligntning的一些基础操作

2023-06-28 19:44:36 2489 2

原创 stable-diffusion-webui 快捷安装教程

本文介绍了Stable Diffusion Webui框架在linux环境下的安装流程，包含了绝大部分依赖库，自测可以正常运行

2023-06-19 21:29:21 2800

原创 Alist百度网盘大文件需要权限解决

解决Alist中百度云大文件无法复制的问题

2023-02-13 16:10:08 10606

原创 EM算法——投硬币样例实现

有c个硬币，每次随机选一个投掷n次，重复执行m次并记录结果。根据投掷结果计算出每个硬币正面的概率。每次选择的硬币未知。随机初始化硬币为正的概率 head_p根据 head_p 求出选择某个硬币的概率 selected_p根据 selected_p 计算新的硬币概率 head_p若 head_p 收敛，执行5；否则，执行2结束。

2022-12-09 16:33:22 1136

原创 Transformers实战——使用Trainer类训练和评估自己的数据和模型

使用Transformers中的Trainer类训练自己的模型

2022-04-06 14:53:41 29657 20

原创 Transformers实战——使用本地数据进行AclImdb情感分类

使用本地数据进行AclImdb情感分类

2022-04-01 15:08:55 4148 6

原创 Transformers训练和微调：Training and Fine-tuning

使用Transformers来训练和微调模型

2022-03-28 22:44:55 10231 3

原创 Transformers数据预处理：Preprocessing data

数据预处理 Preprocessing data在transformers中，数据处理的主要工具是文本标记器tokenizer。我们可以使用模型对应的文本标记器类型，也可以直接使用AutoTokenizer自动分类。文本标记器首先会把文本分割成单词、标点符号等，这些被分割的元素叫作token。然后将token转化为数字，使之能被转化为训练用的张量tensor。除此之外，一些特定的文本标记器还会加上一些模型需要的特殊标记，如BERT中的CLS、SEP。注意：如果你要使用预训练模型，你就需要使用该模型

2022-03-02 20:33:54 3241 1

原创网络退化现象和残差网络效果

介绍最近在网上看见了一个用神经网络实现“一个字符串的所有字母用它的后继字母代替（比如，a用b代替，b用c代替）”功能的代码。看见里面加了一个残差网络，就去看了一下残差网络的相关概念。如下这篇文章：残差网络解决了什么，为什么有效？里面有提到网络退化（即深层网络的效率比不上浅层网络）的现象，于是我就想做个实验试试。本次实验用到了三个网络：26→64→2626 \rightarrow 64 \rightarrow 2626→64→26的全连接神经网络26→64→26→64→64→2626 \righ

2022-01-19 16:50:30 2737

原创 Transformers预训练模型使用：翻译 Translation

翻译是将一个语言的文本转化为另一个语言文本的任务。翻译任务的一个比较经典的数据集是WMT English to German dataset，将英语作为输入，对应德语作为输出（自己用的时候也可以反过来）。使用pipeline可以使用如下代码快速实现：from transformers import pipelinetranslator = pipeline("translation_en_to_de")print(translator("Hugging Face is a technology

2022-01-10 15:16:17 2156

原创 Transformers预训练模型使用：文本摘要 Summarization

文本摘要是一个将一个文档或文章总结成一小段文字的任务。一个文本摘要任务的数据集叫CNN / Daily Mail dataset，包含长新闻文章和其对应的摘要。使用pipeline同样，我们可以使用pipeline快速实现文本摘要。下面使用的是一个用CNN / Daily Mail dataset微调BERT的模型样例。示例代码：from transformers import pipelinesummarizer = pipeline("summarization")ARTICLE =

2022-01-10 15:15:32 3386

原创 Transformers预训练模型使用：命名实体识别 Named Entity Recognition

命名实体识别的任务是对每一个token都进行分类。比如，识别这个token是不是一个人名、组织名或地名。命名实体识别的一个数据集是CoNLL-2003，这个数据集完全契合这个任务。使用pipeline下面是一个使用pipeline实现命名实体识别的样例。首先，要定义9中标签分类：O：不是命名实体。B-MIS：其他类命名实体的开始标记。I-MIS：其他类命名实体的中间标记。B-PER：人名的开始标记。I-PER：人名的中间标记。B-ORG：组织名的开始标记。I-ORG：组织名的中间标记。

2022-01-10 15:14:24 2891 5

原创 Transformers预训练模型使用：语言建模 Language Modeling

语言建模是一个将模型拟合到一个语料库的任务，这个语料库可以是特定领域，也可以是通用领域。所有主流的、基于transformer的模型（跟这个包transformers不是一个东西）都使用了语言建模的变体任务进行训练。如BERT，使用掩码语言建模（masked language modeling），GPT-2是用的是因果语言建模（causal language modeling）。除了用于预训练，预原建模在迁移模型领域时也很有用。比如将一个在超大语料库中训练完成的预训练模型微调到一个新数据集上。掩码语言建

2022-01-10 15:13:13 3816

原创 Transformers预训练模型使用：抽取式问答 Extractive Question Answering

使用pipeline抽取式问答的任务是给定一个文本和一个问题，需要从文本中抽取出问题的回答。有个叫SQuAD的数据集可以完全适用于这个任务。以下是一个使用pipline来实现抽取式问答的样例，会用到一个基于SQuAD数据集微调后的模型：示例代码：from transformers import pipelinenlp = pipeline("question-answering")context = r"""Last year, I went to the countryside to g

2022-01-10 15:10:49 1855 4

原创 Transformers预训练模型使用：序列分类 Sequence Classification

序列分类任务的工作是将文本序列归类到预设类型中，如新闻分类、情感分类等，就属于这类任务。情感分类以下是使用pipelines来进行情感分类的例子，具体任务是判断输入文本是消极的还是积极的。示例：from transformers import pipelineclassifier = pipeline("sentiment-analysis")result = classifier("I hate you")[0]print(f"label: {result['label']}, with

2022-01-10 15:09:05 4736

原创 Transformers快速入门 Quick tour

先简单介绍一下Transformers库的特点。Transformers可用于下载自然语言理解（Natural Language Understanding）任务的预训练模型，如情感分析任务；也可以用于下载自然语言生成（Natural Language Generation）任务的预训练模型，如翻译任务。使用pipline进行一个自然语言处理任务使用pipline可以快速地使用一些预训练模型。transformers提供了一些经典的自然语言任务：情感分析：分析文本是正面的还是负面的。文本生成：提

2021-10-31 22:54:56 2199

原创 torchtext.vocab

class Vocab功能：用于创建字典和应用字典函数：__contains__(token: str) → bool功能：用于判断传入的词语是否存在于词典中。参数：token：字符串。需要判断的词语。返回值：布尔值。传入单词是否在词典中__getitem__(token: str) → int功能：获得传入单词在词典中的索引。参数：token：字符串。需要获得索引的词语。返回值：整型。对应的索引。__init__(vocab)功能：构造函数，创建Vocab实

2021-10-16 19:57:47 7444

原创 torchtext.data.utils

get_tokenizer(tokenizer, language=‘en’)功能：使用分词器对句子进行分词。参数：tokenizer：分词器名称。如果传入None，功能相当于simple_space_split()，不会分割标点符号。如果传入"basic_english"，则会将字母转为小写并按空格分割，会分割标点符号。如果传入可调用函数，则会调用并返回相应结果。如果传入分词库名称，则会返回相应的结果，分词库有spacy、moses、toktok、revotk，subword等。l

2021-10-15 21:24:11 802

原创 torchtext.data.functional

custom_replace(replace_pattern)功能：用于按规则对文本进行替换。参数：replace_pattern：替换规则列表，可使用正则表达式。样例：from torchtext.data.functional import custom_replacecustom_replace_transform = custom_replace([(r'[Se]', '#'), (r'\s+', '_')])list_a = ["Sentencepiece encode aS

2021-10-15 21:23:19 265

原创 pytorch学习21：Fashion MNIST实例

介绍Fashion MNIST数据集是kaggle上提供的一个图像分类入门级的数据集，其中包含10个类别的70000个灰度图像。如图所示，这些图片显示的是每件衣服的低分辨率(28×28像素)数据集的下载和介绍：地址步骤载入数据使用pandas载入文件中的数据预处理数据将数据划分为X、Y并创建相应的DataLoader方便使用创建网络使用三层CNN网络定义超参、损失函数和优化器损失函数选择交叉熵优化器选择Adam开始训练测试结果全部代码impor

2021-10-13 14:58:44 375

原创 pytorch学习20：处理结构数据实例

简介在对训练数据进行预处理时，我们有时会遇到结构化数据。结构化数据，是高度组织和整齐格式化的数据，是可以放入表格和电子表格中的数据类型，可以理解为一张表格。本次使用adult.csv数据作为样例进行模型训练，数据连接如下：https://github.com/zergtant/pytorch-handbook/blob/master/chapter5/data/adult.csv数据结构如下图：数据预处理在处理数据之前，首先要读取数据。使用pandas对数据进行读取：#读入文件df = p

2021-10-09 22:21:12 999

原创 pytorch学习19：pytorch下tensorboard的使用

Tensorboard是tensorflow内置的一个可视化工具，它通过将tensorflow程序输出的日志文件的信息可视化使得tensorflow程序的理解、调试和优化更加简单高效。 Tensorboard的可视化依赖于tensorflow程序运行输出的日志文件，因而tensorboard和tensorflow程序在不同的进程中运行。 TensorBoard给我们提供了极其方便而强大的可视化环境。它可以帮助我们理解整个神经网络的学习过程、数据的分布、性能瓶颈等等。安装直接安装即可，使用pip inst

2021-10-09 16:34:06 1356

原创 pytorch学习18：模型微调Fine tuning和固定层向量导出hook

微调的概念当我们在进行特定任务时，时常会出现训练数据不够的情况，若从头开始训练一个模型，往往效果较差。为了解决这个问题，我们可以找一个别人已经训练好的现成模型，换成自己的数据，调整一下参数，再训练一遍，这个操作就是微调（fine-tune）为什么要微调对于数据集很小的情况，从头开始训练具有千万参数的大型神经网络是是不现实的。越大的模型对数据量的要求越大，且容易产生过拟合。这是如果我们仍然想使用大型神经网络来训练数据，就需要微调已经训练好的模型。微调可以降低训练成本。如果使用导出特征向量的方法进行迁

2021-09-29 10:48:47 547

C语言基础学习常用数据结构和算法

空空如也