ICD编码论文阅读-利用语篇结构和协调代码嵌入的自动ICD编码

最新推荐文章于 2025-04-25 21:53:23 发布

Java 第一深情

最新推荐文章于 2025-04-25 21:53:23 发布

阅读量490

点赞数 6

分类专栏： ICD编码文献阅读文章标签：深度学习多分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46248151/article/details/136874273

版权

ICD编码文献阅读专栏收录该内容

2 篇文章

订阅专栏

本文提出一种结合节类型分类和协调嵌入的神经网络结构，针对临床笔记的语篇结构、ICD代码描述与文档间风格差异及类别不平衡问题进行研究。DiscNet利用多粒度表示，而ReconciledEmbedding则解决异构性和类别不平衡，实验在MIMIC-III数据集上表现出先进性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

创新点

1. 现有的研究并没有利用语篇结构的临床笔记，其实这提供了丰富的上下文信息可用于代码分配

所以本篇论文利用了节类型分类和节类型嵌入的语篇结构

2. 还关注了类别不平衡的问题以及临床笔记和ICD代码定义之间的异构写作风格。所提出的协调嵌入方法能够同时处理它们

现状分析

现有的研究忽略了以下三点：

首先，它们忽略了临床文档的语篇结构。

其次，大多数方法没有考虑ICD代码描述与相关临床文档之间的写作风格差异。

第三，大多数方法没有考虑标签空间中的类别不平衡问题。

1、临床文档的语篇结构

临床文档的语篇结构指的是文档中的段落、句子和词语之间的组织和关系。它涉及到文档的逻辑结构、篇章结构以及句子和段落之间的连接方式。

2、ICD代码描述与相关临床文档之间的写作风格差异

ICD代码描述是指用于描述医学诊断和手术过程的国际疾病分类（ICD）代码的文本描述。相关的临床文档是指包含与ICD代码相关的医学记录、病历、报告等文档。

写作风格差异指的是ICD代码描述与相关临床文档之间在语言表达、术语使用、句子结构等方面的差异。由于编写ICD代码描述和撰写临床文档的目的和受众不同，它们可能采用不同的写作风格和表达方式。

3、标签空间中的类别不平衡问题

标签空间中的类别不平衡问题是指在分类任务中，不同类别的训练样本数量存在明显的不平衡情况。具体而言，某些类别的样本数量远远多于其他类别，导致模型在学习和预测过程中偏向于频繁出现的类别。有一些罕见疾病很少出现在临床文档等等数据集中。

考虑到代码描述和标签分布的性质，我们认为，实例稀缺的代码表示应该从代码描述中学习更多，因为代码描述是ICD代码的基本定义。

研究方法

1、DiscNet

Discourse Net利用话语级特征、词级特征和句子级特征来学习多粒度临床文档表示

它利用节类型(Section Type)嵌入来利用话语层面的特征。

1.1、节类型(Section Type)嵌入

临床文档通常包含多个章节，章节标题不标准。我们通过使用正则表达式确定章节标题的位置来将文档划分为节（Section）。

选择出现率最高(93%)的标题作为已知的Section Type

将每个部分内容被转换为TF-IDF向量，然后使用已知的Section Type作为标签来训练朴素贝叶斯分类器

最后，经过训练的朴素贝叶斯模型将每个部分映射到已知的Section Type

1.2、输入层

使用word2vec CBOW 方法在MIMIC-III数据集的训练集上预训练size d = 100的词嵌入

使用预训练的词嵌入将输入词序列映射到嵌入空间中

输入嵌入是词嵌入 + 节类型嵌入

1.3、多粒度表示

略

2、Reconciled Embedding (RE)

RE即可调和 --> 类别不平衡问题和代码定义和相关文档之间的异构性

2.1、消除异构性

见论文详细讲解

2.2、消除类别不平衡

见论文详细讲解

研究结论

本篇论文提出了一种新的ICD自动编码神经网络结构。我们利用节类型嵌入来使我们的模型具有话语意识。我们关注的是类不平衡的问题和代码定义和相关文档之间的异构性。所提出的嵌入式方法同时解决了这两个问题。我们在广泛研究的MIMIC-III数据集上实现了最先进的性能。DiscNet可以应用于所有具有话语结构的文本，但不限于临床文本。所提出的协调嵌入方法可以应用于存在与标签相关联的辅助信息的场景中。

Java 第一深情

博客等级

码龄5年

116
原创

1939
点赞

1671
收藏

1978
粉丝

关注

私信

热门文章

分类专栏

最新评论

Borderline-SMOTE算法总结
python 第一深情: 因为你的原因我就叫python第一深情
史上最强的Kafka可视化WebUI工具，涵盖多种功能
Java 第一深情: 你的集群配置有问题，检查一下你的kafka集群节点是否连通
史上最强的Kafka可视化WebUI工具，涵盖多种功能
宝华的小岛: org.springframework.beans.factory.UnsatisfiedDependencyException: Error creating bean with name 'clusterServiceImpl': Unsatisfied dependency expressed through field 'adminClient'; nested exception is org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'adminClient' defined in class path resource [com/lcc/kafkaUI/config/AdminClientConfig.class]: Bean instantiation via factory method failed; nested exception is org.springframework.beans.BeanInstantiationException: Failed to instantiate [org.apache.kafka.clients.admin.AdminClient]: Factory method 'adminClient' threw exception; nested exception is org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /brokers/ids,报这种错误，运行不起来。求教！
消息队列MQ面试题解，基础面试题
500佰: 果断关注哈哈
Sentinel最全笔记，详细使用步骤教程清单
LXMXHJ: 作者您好，我学习热点参数流控时，遇到了一个问题，资源名是hello，对应接口只有一个参数apikey，且设置规则是apikey=a时拦截，但是请求该接口使用apikey=b，却存在有时成功，有时被拦截的问题请求这个是什么原因呢？麻烦您了。具体的详细代码信息在博客的基础限流部分 https://blog.csdn.net/LXMXHJ/article/details/145159679?sharetype=blogdetail&sharerId=145159679&sharerefer=PC&sharesource=LXMXHJ&spm=1011.2480.3001.8118

大家在看

Python 虚拟环境 venv 教程：隔离项目环境从此不踩坑 310

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。