（五）文章结构优化建议与API回答清洗-CSDN博客

本文链接：https://blog.csdn.net/qq_74429414/article/details/147719288

本节完成作文结构智能优化功能，包含逻辑链分析，自动识别文章结构，提供逻辑优化建议，如如何增强论据的层次性。段落优化建议，针对性提供段落调整方案，提高文章连贯性。

一、文章结构优化

采用与批改文章相同逻辑，前端获取上下文后传给后端，后端使用事先写入的prompt文件，调用DeepSeek API接口。prompt文件中根据任务需求进行详细设定，也可采用多个prompt文件构成CoT思维链来进行调用DeepSeek API，是结果更符合需求。

经实现后测试，结果如图所示，可以看到成功调用API并得到结果。

但在运行中发现，由于调用的是DeepSeek-R1的模型，存在着思考过程的内容，而这是我们所不需要的，于是决定对API的回答加一个清理过程，用来剔除所有的思考环节。

二、API回答清洗

通过网上搜索得知，DeepSeek-R1返回结果中，思考环节会有一个<think>标签用来表明，于是决定采用先获取API回答，之后对API回答中带有<think>标签的内容进行剔除。

在原代码中加入：

import re

其中Python的re模块是Python标准库Python标准库Python标准库中用于正则表达式操作的一个强大工具。正则表达式是一种文本模式描述的方法，它可以用来检查一个字符串是否与某种模式匹配，或者用于提取、替换、分割字符串等操作。

准备采用正则表达式来进行匹配剔除不需要的内容。

之后定义方法：

def remove_think_block(text):
    return re.sub(r'<think>.*?</think>\n?', '', text, flags=re.DOTALL)

此方法的目标是删除文本中所有 <think>...</think> 标签及其内部内容，同时可能移除标签后的换行符（\n）。

正则表达式 r'<think>.*?</think>\n?' 是关键，其设计包含以下细节：

<think> 和 </think>：直接匹配这两个固定标签的字符串。
.*?：
. 表示匹配任意字符（默认不含换行符，但 flags=re.DOTALL 会覆盖此限制，允许匹配换行符）。
*? 是非贪婪匹配，确保匹配最短的 <think>...</think> 块，避免跨多个标签的错误。例如，若文本中有多个 <think> 块，非贪婪模式会逐个匹配而非合并成一个整体。
\n?：匹配标签后可能存在的换行符（0或1次），从而避免删除标签后留下多余空行。

re.sub(pattern, repl, string, count=0, flags=0)
pattern：即上述正则表达式。
repl：替换为空字符串 ' '，即删除匹配内容。
flags=re.DOTALL：
此标志允许 . 匹配包括换行符在内的所有字符，确保 <think> 和 </think> 之间的多行内容被完整删除。

之后整合进我们之前的代码中：

 result = response.json()
        response.raise_for_status()  
        api_result = result["choices"][0]["message"]["content"]
        cleaned_api_response = remove_think_block(api_result)

而在返回中则使用被清洗后的回答：

     return jsonify({
                "result": cleaned_api_response
            })

进行测试对比：

无清洗思考过程之前：

思考过程清洗之后：

可以看到直接得到了结果，而将之前所有的思考过程内容进行了清理。