自然语言处理:第八十四章 Markdown文档如何切分?

本人项目地址大全:Victor94-king/NLP__ManVictor: CSDN of ManVictor


写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!


1 概述

解析(1)使用MinerU将PDF转换为Markdown中我们提到了将各种文档解析为Markdown的好处,本文我们接着上一篇文章处理后的Markdown,讲解如何对Markdown文档进行切分。

在很多文档中,标题都是非常重要的信息,例如企业内部的办理流程,稍微规范点的文档,标题里面都会体现重点信息的。

既然转成了Markdown,标题肯定是保留下来了,本文将首先介绍基于Markdown标题的切分方法,以及另外一种常规的Markdown切分方法。Langchain中对于Markdown文档专用的切分器,其实也只有两类:

  • 普通的Markdown切分方法(Langchain中的MarkdownTextSplitter),效果和使用PyPDFLoader加载解析PDF的效果是一致的
  • 基于标题的切分方法(Langchain中的MarkdownHeaderTextSplitter类),与直觉理解还不太一样,直接-使用langchain的Markdown标题切分类,效果并不好,我们将通过对结果的简单分析,尝试发现问题,并进行优化,下图是经过2次优化后的结果,效果答复提升,最终效果基本上是与基础流程打平了

图片

本文将介绍这两种切分方法,并介绍如何通过对基于标题的切分结果进行简单的数据分析,尝试发现问题并进行解决。

2 效果对比

下图是效果对比,从结果上来看,并没有体现出将PDF使用MinerU转换成Markdown的优势,可能的原因有以下两点:

  • 我们示例所使用的文档,转成Markdown后只有一级标题,标题的层级不够丰富,意味着转Markdown后,标题所能发挥的作用有限
  • 由于最初在使用RAG技术构建企业级文档问答系统之QA抽取构造的测试集是使用PyPDFLoader加载解析PDF并直接切分构造的,从这个角度讲,基础流程是与测试集更加契合的
  • 0.71相比0.72只低了1个点,并没有显著得低,这个结果未必置信

图片

3 核心代码

3.1 基于标题切分

3.1.1 直接使用MarkdownHeaderTextSplitter

这部分完整代码在:

https://github.com/Steven-Luo/MasteringRAG/blob/main/split/01_2_markdown_header_text_splitter.ipynb

在Langchain中基于Markdown标题的切分核心样例代码如下:

from langchain.text_splitter import MarkdownHeaderTextSplitter
import os

# 加载文档
markdown_documents = open(os.path.join(os.path.pardir, 'outputs', 'MinerU_parsed_20241204', '2024全球经济金融展望报告.md')).read()

def split_md_docs(markdown_document):
    # 指定要切分的标题层级,后面的Header 1/2/3会添加到切分后的metadata中
    headers_to_split_on = [
        ("#", "Header 1"),
        ("##", "Header 2"),
        ("###", "Header 3"),
    ]
    markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)
    md_header_splits = markdown_splitter.split_text(markdown_document)

    return md_header_splits

md_splitted_docs = split_md_docs(markdown_documents)

由于原文几乎没有二级标题,这意味着每个片段可能会偏大,检查切分后片段的大小:

import pandas as pd

pd.Series([len(d.page_content) for d in md_splitted_docs]).describe()
count      43.000000
mean      749.395349
std       673.945036
min        33.000000
25%       241.000000
50%       462.000000
75%      1075.500000
max      2839.000000

可以看出,50%以上的文档片段长度都在462以上,粗略估计可能有40%的文档片段超过了向量模型的最大长度,这种片段的超长内容必然无法被向量模型捕获到,从而导致后续无法检索。

后续的检索、生成流程与之前的完全一致,篇幅原因大家可以到代码仓库查看完整代码。

使用这种方式切分的片段,所生成的答案最终打分只有0.37,大幅低于Baseline,结合前面对切片长度的分析,我们推测是否答错了的问题是否是片段超长导致的。

下面对答案正确(下图中score为1的)和错误(下图中score为0的)的问题,对应的最大切片长度、平均切片长度绘制灯箱图进行分析,可以明显看出,回答错了的,无论是最大切片长度,还是平均切片长度,都是比回答正确的问题要大的,推测是正确的。

图片

图片

3.1.2 对超长片段进行二次切分

这部分完整代码在:

https://github.com/Steven-Luo/MasteringRAG/blob/main/split/01_3_markdown_header_text_splitter_v2.ipynb

既然我们上面分析出了问题所在,接下来使用 MarkdownTextSplitter对超长的片段进行二次切分:

from langchain.text_splitter import MarkdownTextSplitter

new_md_splitted_docs = []
splitter = MarkdownTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)
for doc in md_splitted_docs:
    if len(doc.page_content) > 700:
        small_chunks = splitter.split_documents([doc])
        new_md_splitted_docs.extend(small_chunks)
    else:
        new_md_splitted_docs.append(doc)

这次处理后的结果,自动打分能达到0.68了,但依然大幅低于基准0.72,下面对结果的分析也表明效果差应该不是切片长度的问题了。

图片

图片

3.1.3 切片增加标题

这部分完整代码在:

https://github.com/Steven-Luo/MasteringRAG/blob/main/split/01_4_markdown_header_text_splitter_v3.ipynb

再次检查代码发现,MarkdownHeaderTextSplitter中有一个参数strip_headers,默认值为True,意思是它会把切出来的标题,放到每个切片的metadata中,这样切片本身就没有标题了,这可以说是一个bug,我们把这个参数关闭:

def split_md_docs(markdown_document):
    headers_to_split_on = [
        ("#", "Header 1"),
        ("##", "Header 2"),
        ("###", "Header 3"),
    ]
    markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on, strip_headers=False)
    md_header_splits = markdown_splitter.split_text(markdown_document)

    return md_header_splits

同时,对超长部分的片段,也把这个标题“传播”到每个超长片段二次切分后的子片段中:

from langchain.text_splitter import MarkdownTextSplitter

new_md_splitted_docs = []
splitter = MarkdownTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)
for doc in md_splitted_docs:
    if len(doc.page_content) > 700:
        small_chunks = splitter.split_documents([doc])
        # 把原始文档的标题回小片段的正文
        for doc in small_chunks[1:]:
            header_prefix = ''
            for head_level in range(1, 4):
                if f'Header {head_level}' in doc.metadata:
                    header_prefix += '#' * head_level + ' ' + doc.metadata[f'Header {head_level}'] + '\n'
            doc.page_content = header_prefix + doc.page_content

        new_md_splitted_docs.extend(small_chunks)
    else:
        new_md_splitted_docs.append(doc)

这次处理后,最终自动化打分能达到0.71,基本上追平了基准0.72,但基准模型原文切分后得到了52个切片,而这种方式得到了102个切片,原文总长度是一样的,切片数量多意味着每个切片的平均长度短,都检索TopN作为上下文的话,意味着这种方式总的Prompt会更短,线上实际使用无论是耗时还是消耗API(如果使用在线API服务)的tokens数更少,这可以说是转换成Markdown后最有价值的点了。

3.1.4 对上下文片段数搜参

这部分完整代码在:

https://github.com/Steven-Luo/MasteringRAG/blob/main/split/01_5_markdown_header_text_splitter_v4.ipynb

上一篇文章,包括本文介绍了一堆Markdown的好处,但如果仅从效果的角度看,并没有表现得很能打,是否是超参数设置得不够优导致的?因此本文又对上下文片段数进行了搜参,结果如下表,如果大家回忆之前的使用RAG技术构建企业级文档问答系统:检索优化(11)上下文片段数调参,基准模型的Top6准确率可以达到0.8,而此处只能在0.8时达到0.78。有可能是将超长片段二次切分时,将大标题传播到每个小片段,对检索造成了误解,更多原因有待大家可以进一步探索。

n_chunksaccuracy
30.71
40.74
50.74
60.76
70.77
80.78
90.77
100.78

3.2 普通Markdown切分器这部分完整代码在:https://github.com/Steven-Luo/MasteringRAG/blob/main/split/01_1_markdown_text_splitter.ipynb

from langchain.text_splitter import MarkdownTextSplitter
from langchain.schema import Document
import os

# 加载文档
markdown_documents = open(os.path.join(os.path.pardir, 'outputs', 'MinerU_parsed_20241204', '2024全球经济金融展望报告.md')).read()

def split_docs(markdown_document, chunk_size=500, chunk_overlap=50):
    splitter = MarkdownTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    splitted_texts = splitter.split_text(markdown_document)
    return [Document(page_content=text) for text in splitted_texts]

从Langchain的源代码看,MarkdownTextSplitter其实是我们之前一直使用的 RecursiveCharacterTextSplitter的子类:

https://github.com/langchain-ai/langchain/blob/master/libs/text-splitters/langchain_text_splitters/markdown.py

class MarkdownTextSplitter(RecursiveCharacterTextSplitter):
    """Attempts to split the text along Markdown-formatted headings."""

    def __init__(self, **kwargs: Any) -> None:
        """Initialize a MarkdownTextSplitter."""
        separators = self.get_separators_for_language(Language.MARKDOWN)
        super().__init__(separators=separators, **kwargs)

只是分割符,使用了Markdown的:

...
elif language == Language.MARKDOWN:
    return [
        # First, try to split along Markdown headings (starting with level 2)
        "\n#{1,6} ",
        # Note the alternative syntax for headings (below) is not handled here
        # Heading level 2
        # ---------------
        # End of code block
        "```\n",
        # Horizontal lines
        "\n\\*\\*\\*+\n",
        "\n---+\n",
        "\n___+\n",
        # Note that this splitter doesn't handle horizontal lines defined
        # by *three or more* of ***, ---, or ___, but this is not handled
        "\n\n",
        "\n",
        " ",
        "",
    ]
...

注意: 看起来 MarkdownTextSplitter的切分符包含了标题切分,似乎可以涵盖 MarkdownHeaderTextSplitter的功能,但其实不然,大家如果阅读源代码的话会发现,MarkdownTextSplitter切分只会按照指定的字符串硬切,如果Markdown的代码块中包含这些切分符,也会被切开,会造成语义不连贯,但 MarkdownHeaderTextSplitter有诸如 split_text这样的方法,可以确保如果切分符出现在代码块中,它是不会硬切开的。

<think>好的,我现在需要帮助用户了解大模型如何处理医疗语料信息,特别是去除无用部分和进行内容切片。首先,用户的问题可能涉及医疗领域的文本预处理,这可能用于构建知识图谱或训练专业模型。用户提到目录、附录这些需要去除的部分,可能他们在处理医疗文档、研究论文或电子病历,这些通常包含大量非正文内容。 用户还关心如何切片内容,确保完整性。这可能意味着他们希望将长文本分割成有意义的段落,以便后续处理,比如信息提取或模型训练。需要考虑到医疗文本的结构特殊性,比如节标题、参考文献等,这些可能在切片时需要特别处理,避免分割不准确导致信息缺失。 接下来,我需要回顾大模型处理文本的一般流程,但需要结合医疗领域的特殊性。首先,数据清洗是关键,去除目录、附录等部分可能需要规则或模型识别这些结构。然后,文本切片需要考虑语义完整性,可能需要自然语言处理技术来识别段落边界。 可能需要分步骤讲解:数据清洗、切片策略、技术实现等。同时,用户可能希望知道具体的技术方法,比如使用正则表达式、机器学习模型,或者结合领域知识的方法。还要提到评估切片质量的方法,比如人工校验或自动化指标。 另外,用户可能没有明确说明的是他们的具体应用场景,比如是处理临床记录还是学术论文,这会影响处理策略。需要假设几种常见情况,给出通用的方法,同时提示根据具体需求调整。 最后,需要确保回答结构清晰,步骤明确,并给出实际例子帮助理解。还要注意使用中文,避免使用Markdown,保持口语化,但之前的历史回答用了较正式的结构,可能需要保持一致。</think>在医疗领域处理语料信息时,大模型需要结合医学文本特性和工程化方法进行精细化处理。以下是关键步骤和技术细节: --- ### **一、医疗语料清洗:去除无用内容的3层过滤机制** #### 1. **结构化特征过滤** - **规则引擎**: - 使用正则表达式匹配目录特征(如`/^(第[一二三四五六七八九十]+|目录)/`) - 附录标识符检测(如`附录A`、`Supplementary Table`) - **案例**: ```python import re def remove_toc(text): return re.sub(r'^(?:\s*第[一二三四五六七八九十]+.*|\s*目录\s*)$', '', text, flags=re.MULTILINE) ``` #### 2. **版面布局分析** - PDF解析工具(如PyMuPDF)提取: - 页眉/页脚(重复出现的日期、页码) - 表格/图片题注(`Table 1.`或`Figure 3.`开头的内容) - 医疗文本特殊标记清洗: - 删除IRB审批编号(如`IRB#2023-456`) - 过滤知情同意书模板段落 #### 3. **语义内容筛选** - 使用医学BERT模型计算段落信息密度: $$ \text{信息得分} = \frac{\text{医学术语数}}{\text{总词数}} \times \log(\text{段落长度}) $$ - 阈值设置(如得分<0.15的段落判定为低信息量) --- ### **二、医疗文本切片的4种核心策略** #### 1. **基于医学文档结构的切片** - **临床指南处理**: ```text [保留] 适应证 → 禁忌证 → 用法用量 → 不良反应 [丢弃] 编写委员会名单 → 版本更新记录 ``` - **电子病历切分**: - SOAP框架分割: ```python sections = re.split(r'\b(Subjective|Objective|Assessment|Plan)\b:', text) ``` #### 2. **语义连贯性切片** - 使用滑动窗口+重叠检测: - 窗口大小:512 tokens(适配BERT系列模型) - 重叠阈值:相邻窗口余弦相似度>0.85时合并 - 医疗实体连续性检测: ```python if current_window.contains("糖尿病") and next_window.contains(["并发症", "胰岛素"]): merge_windows() ``` #### 3. **诊疗逻辑链保持** - 强制保留完整诊疗单元: ```text [有效切片] 主诉(胸痛) → 查体(心电图ST段抬高) → 诊断(急性心梗) → 处置(PCI手术) [错误切割] 主诉(胸痛) | 查体(心电图...) → 诊断(... (被分割) ``` - 使用依存句法分析检测未完成语句: ```text "患者出现发热3天,最高体温" → 检测到宾语缺失,禁止在此切割 ``` #### 4. **多模态内容对齐** - 图文关联切片(适用于影像报告): ```text [切片单元] CT报告描述 + Hounsfield单位数值 + 放射科医生结论 ``` - 实验室数据绑定: ```text "HbA1c 8.5%" → 必须与上下文中的"糖尿病控制情况"保持在同一切片 ``` --- ### **三、医疗领域增强技术** #### 1. **专业词典约束** - 构建医疗停用词表: - 通用停用词扩展:`病例`, `方法`, `结果`(论文节标题) - 保留关键术语:`EGFR突变`, `PCI术后`, `5-FU化疗` #### 2. **术语标准化** - 使用UMLS Metathesaurus进行术语映射: ```python from umls_api import CuiMapper mapper = CuiMapper() text = mapper.replace_synonyms("心梗", prefer_term="心肌梗死") ``` #### 3. **隐私信息处理** - 医疗实体脱敏规则: ```python PHI_PATTERNS = [ (r'\d{4}-\d{2}-\d{2}', '[DATE]'), # 出生日期 (r'\b[A-Z]\d{6}\b', '[MRN]') # 病历号 ] ``` --- ### **四、质量验证方法** 1. **临床专家校验** - 设计双盲标注协议:Cohen's Kappa >0.8视为合格 - 重点检查切片是否破坏临床逻辑: ```text 错误案例:将"禁忌证:孕妇禁用"与"推荐剂量:200mg bid"分割到不同切片 正确做法:完整保留药物使用说明单元 ``` 2. **自动化评估指标** - 医疗实体完整性指数: $$ \text{MEI} = \frac{\text{切片内完整实体数}}{\text{原文实体数}} $$ - 诊疗上下文连贯度(通过BioBERT的NSP任务计算) --- ### **五、典型错误及解决方案** | 问题类型 | 解决方案 | |-------------------------|--------------------------------------------------------------------------| | 检查数值与结论分离 | 强制绑定数值与参考范围(如`HbA1c 8.5%(正常<6.5%)`需完整保留) | | 药物剂量信息碎片化 | 使用剂量表达式正则捕获(如`\d+mg\s*(?:口服|静脉)\s*(?:qd|bid)`) | | 基因突变描述不完整 | 基于HGVS命名法检测(如`c.1799T>A`必须与`EGFR基因`同切片) | | 治疗时间线断裂 | 时序标记识别(`术后第3天`、`化疗2周期后`)建立时间锚点 | --- ### **六、工具与资源推荐** 1. **医疗文本处理工具包** - CliNER(临床命名实体识别) - MedSpaCy(医疗版Spacy,含ICD-10编码映射) 2. **预训练模型** - BioBERT(PubMed训练的BERT变体) - ClinicalBERT(MIMIC-III病历微调版本) 3. **标注指南参考** - i2b2/UTHealth临床叙事标注标准 - BRAT医学语料标注规范(含化疗方案、症状时序标注) 通过以上方法,可确保医疗文本在清洗和切片后仍保持临床决策所需的完整性和准确性,为后续的模型训练或知识图谱构建提供高质量输入。实际实施时建议采用渐进式验证策略:先规则后模型,先抽样检查再批量处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曼城周杰伦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值