题目:
Information Extraction from the Text Data onTraditional Chinese Medicine: A Review on Tasks, Challenges, and Methods from 2010 to 2021
摘要:
本研究的目的是对近 10 年来中药来源 IE的现状进行系统回顾。方法。我们搜索了 4个文献数据库,检索了 2010年至2021年发表的文章
- 评估了 IE在中医领域的关键任务
- 总结了从中医文本数据中提取信息所面临的挑战
- 通过分类识别有效的框架、模型和中医 IE的关键发现、结论。
我们的分析表明,IE 的TCM文本数据在过去十年中得到了改善。然而,中医文本的提取还面临着缺乏金标准语料库、非标准化表达、多种关系类型等方面的挑战。未来 IE工作需要进一步挖掘现有实体和关系,构建金标准数据集,探索基于少量标注数据的 IE方法。此外,细粒度和可解释的 IE技术是进一步探索的必要条件。
问题:
中医电子文本大多存储为非结构化数据,包括大量的病例笔记、主诉和现病史、出版物摘要、Web 数据等,不能直接用于文本挖掘。因此,在进行数据挖掘之前,当务之急是将中医数据转化为结构化数据。
2020-2021使用的方法有:BiLSTM-CRF, Co-training, BERT-BiLSTM-CRF, lattice LSTM-CRF, GNN, BiLSTM, multi-view graph model, sparse multi-instance learning algorithm, CNN with a Segment Attention mechanism, multi-hop self-attention Mechanism-BiLSTM, structural LSTM, span- level distantly supervised NER approach, regular expression, levenshtein string similarity algorithm and entity matching technology, NLP tools
IE在中医领域的挑战:
- 中医文本缺乏结构化,缺乏金标准语料库。汉语表达式是由连续的汉字构成的,没有空格,实体的边界不清晰。
- TCM领域的非结构化文本数据大多是非标准化的。具有不同历史背景、知识储备和学术观点的临床从业人员。这导致了中医书面表达和学术观点的多样性。如“同义词”和“一词多义”是古今中医文献中常见的不规范现象。因此,中医文献在书写风格、词汇习惯、思维逻辑形式、治疗习惯等方面存在诸多差异,给 IE任务带来了困难和挑战。
- 中医数据中存在多种类型的复杂关系。在中医文献中,有许多复杂的理论联系,在原始文本中没有什么提示,是隐式的,只有中医专家才能理解。这一现象使得这些异构医疗实体之间形成了复杂的关系网络。TCM实体关系网络庞大而复杂,增加了 IE工作的工作量和难度。
- 自动有效地从原始中医文本中提取信息是一个技术难题。
IE 的研究方法:
- 基于词典的方法:
- 基于 dic 的IE方法依赖于人工词库(字典),主要采用字符串相似度算法,如匹配最大匹配算法和实例匹配算法。
- 基于规则的方法:
- 基于规则的方法在语言表达具有一定模式的文档中表现良好,如中成药说明书。
- 在小数据集的情况下,基于规则的方法在关系抽取任务上可能优于基于特征的方法。
- 浅层机器学习方法:
- 浅层机器学习方法认为 IE是一个分类问题,通常使用监督学习和特征工程来获得可接受的性能。
- 使用非结构化数据的TCM的 IE工作流通常包括两个主要过程:
- 特征选择——特征选择的质量往往决定IE 的性能。提取的特征包括位置特征、权重特征、计数特征、词性特征、文字特征、类别特征、关键词频次等。
- 基于所选特征训练构造分类器,然后由训练过的分类器对新输入的非结构化数据进行分类。
- 分类器包括
- 决策树(DT):DT 独特的树型结构使其能够处理 IE任务中的连续序列数据,但忽略了属性之间的相关性,容易导致结果过拟合。
- 朴素贝叶斯(NB):NB算法由于其分类稳定性,对缺失数据不敏感,这在文本任务中是非常关键的。但其属性条件独立的假设对属性之间的相关性也不敏感。
- 支持向量机(SVM):支持向量机是目前最流行的浅层机器学习分类任务模型之一,具有很强的优势,其独特的核函数解决了广泛的分类问题。由于核函数的应用,SVM在大规模数据处理中速度非常慢,不同核函数的选择对缺失数据非常敏感。
- 隐马尔可夫模型(HMM):HMM包含观察序列和隐藏状态序列,通过捕获词间潜在的实时状态关系,可根据不同的上下文进行分词。但是,由于HMM对贡献的上下文关注较少,需要提高一定的顺序,这导致在进行大量训练数据的分词任务时消耗大量的时间和空间资源。
- 最大熵马尔可夫模型(MEMM):MEMM将HMM和最大熵模型(MEM)的优点集成到生产模型中。该模型允许状态转移概率依赖于观测序列中的非独立特征,类似于HMM引入上下文信息。但由于它是基于马尔可夫链的改进,在收敛过程中很容易陷入与马尔可夫链相同的局部最优解。在收敛过程中很容易陷入局部最优解。
- 条件随机场(CRF):通过求整个序列的联合概率得到全局最优解。为了获得关于序列的更多信息,定义了各种特征模板,以充分利用文本中提供的上下文信息。
- 异构因子图
- 其他NLP 工具:基于 crf的识别器在实体抽取的不同序列标注任务中取得了优异的性能。
- 深度学习方法:将深度学习算法引入 NLP的一个关键因素是使用的预训练语言模型,例如Word2vec 或transformer的双向编码器表示(BERT)。BERT 模型是一种经典的、最先进的 NLP 技术语言表示模型,它能够从上下文预测被掩蔽的信息。 BERT 的应用或组合可以显著提高实体识别或关系提取的结果。
- BERT-convolutional neural network (CNN)
- convolutional neural network with segment attention mechanism (SEGATT-CNN)
- K-nearest neighbor (KNN)
- long short-term memory(LSTM)
- bidirectional long short-term memory(BiLSTM):BiLSTM模型比LSTM模型能够捕获更多的上下文信息。
- structural BiLSTM
- LSTM-CRF
- BiLSTM-CRF:种基于 BiLSTM-CRF 模型的中医临床术语半监督提取方法。将百科语料库训练的字符向量与中医相关语料库训练的字符向量相结合。
- BERT-BiLSTM-CRF:通过加入半监督伪标签学习进行模型训练,有效提高了 BERT-BiLSTM-CRF 模型的识别准确率,并在一定程度上减少了人工标记工作。
- graph neural networks:首先从共现关系出发构建异构实体图,并利用领域知识增强图的语义信息,通过节点表示学习和分类,同时推断出所有候选关系的标签。
- a nested NER model based on LSTM-CRF
- 基于 remote -bilstm的实体识别方法,并在只使用与 TCM领域相关的实体词汇的前提下完成了实体识别任务。该方法比远程lstm - crf方法和字典匹配方法对 TCM文本的处理效果更好。
评价指标:
- 准确度(阳性预测值)
- 召回率(灵敏度)
- F-measure(召回率和精确度的谐波平均值)
- 准确度(准确性)
- AUC(曲线下面积)等
特征选择和分类器:讨论了实体关系分类的有效特征集、动词特征的贡献、实体的所有词特征、词距离特征、不同类型的实体关系分类不同,定义了中医针灸实体的五种类型,即疾病、保健、治疗和保健方法、经络、用药,以及疾病治疗、保健、经穴治疗和保健方法四种实体关系类型。
总结与讨论:
- 在中医领域对关系提取的研究还不够。
- 大多数 IE 任务并不关注特定的疾病或疾病类别,而是使用综合文本作为数据源。
- 在实际应用中,领域实体字典总是不完整的,并不能涵盖所有的实体名称。
- 基于规则的方法在很大程度上依赖于中医领域良好的语法知识库,因此难以保证规则的完整性和合理性。
- 临床 IE 系统的可移植性和广泛性仍然有限,具有挑战性。
- The few-shot learning or meta-learning technology will bring hope。Meta-learning, also known as “learning to learn”, aims to address the problem of data limitation when learning new tasks. Few-shot learning brings AI technology closer to human intelligence. Currently, meta-learning and few-shot learning have been applied in classification and target detection In the field of TCM text processing, they also have positive prospects and opportunities。
- It remains an important task to extract implicit relations directly from unstructured TCM text, which are implicitly represented in the low-dimensional and semantic space, as there is no relational word to prompt the type of the relation.
- study s part-of-speech tagging, semantic analysis, and relation extraction,extract entities and relationships at the fine-grained level
- the importance and necessity of interpretability in the healthcare industry