2025第十三届泰迪杯C题-竞赛智能客服机器人【全部解题思路+Python完整项目代码实现】-CSDN博客

本文链接：https://blog.csdn.net/Cromwell_/article/details/146262955

2025第十三届泰迪杯C题-竞赛智能客服机器人【全部解题思路+Python完整项目代码实现】

超全面解析 | 完整代码实现 | 精准RAG问答系统 | 高分保障方案

🏆 赛题背景与要求

2025年第十三届"泰迪杯"数据挖掘挑战赛C题要求参赛者构建一个竞赛智能客服机器人，能够回答用户关于各类竞赛的咨询问题。

随着国内学科和技能竞赛的增多，参赛者对竞赛相关信息的咨询需求不断上升。然而，传统人工客服面临着效率低、成本高、服务不稳定和用户体验差等诸多问题。因此，设计一款智能客服机器人，为赛事提供实时、高效、精准的信息查询服务，成为了迫切的需求。

本赛题提供了18个竞赛规程文档（PDF格式），要求参赛者：

竞赛数据整理：从PDF文档中提取竞赛基本信息
智能客服机器人构建：能够回答用户关于竞赛的各种咨询问题
知识库更新与管理：支持知识库的实时更新和管理

示例数据

💡 解决方案概述

我们基于最新RAG技术（检索增强生成）构建了一个完整的智能客服机器人系统，能够精准回答用户关于竞赛的各类问题。系统具有以下特点：

高效PDF文档处理：自动提取竞赛关键信息
精准语义检索：结合FAISS向量检索和BM25关键词检索
智能问答生成：基于大模型的精准回答生成
知识库实时更新：支持新增和变更竞赛信息
批量问答处理：支持批量处理问题，提高效率
友好的用户界面：基于Streamlit构建直观界面

系统问答首页

🔍 技术实现路线

1. 数据处理与知识库构建

我们使用PyMuPDF库处理PDF文档，提取竞赛关键信息，并构建结构化数据。知识库采用混合检索架构，结合了稠密检索（FAISS）和稀疏检索（BM25）的优势：

# 文本分块与向量化
def _init_text_splitter(self) -> RecursiveCharacterTextSplitter:
    """初始化文本分割器"""
    chunk_size = self.retrieval_config.get("chunk_size", 500)
    chunk_overlap = self.retrieval_config.get("chunk_overlap", 50)
    
    return RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        separators=["\n\n", "\n", "。", "！", "？", ".", "!", "?", " ", ""]
    )

2. RAG问答系统实现

系统核心采用RAG架构，通过检索相关文档作为上下文，结合大模型生成精准回答：

def retrieve(self, query: str, top_k: int = None) -> List[Document]:
    """检索知识库"""
    # 使用FAISS向量检索
    if use_faiss and self.vector_store:
        faiss_docs = self.vector_store.similarity_search_with_score(query, k=top_k * 2)
        # 处理检索结果...
    
    # 使用BM25检索
    if use_bm25 and self.bm25_retriever:
        bm25_docs = self.bm25_retriever.get_relevant_documents(query)[:top_k * 2]
        # 处理检索结果...
    
    # 结果融合与排序...
    return sorted_results[:top_k]

3. 批量问答处理

为满足大规模问题处理需求，我们实现了批量问答处理功能：

def process_excel(self, input_file: str, output_file: str) -> bool:
    """处理Excel文件中的问题"""
    # 读取Excel文件
    df = pd.read_excel(input_file)
    
    # 处理每个问题
    results = []
    for _, row in tqdm(df.iterrows(), total=len(df)):
        question_id = row["问题编号"]
        question = row["问题"]
        
        # 处理问题
        result = self.process_question(question, question_id)
        results.append(result)
    
    # 保存结果
    result_df = pd.DataFrame(results)
    result_df.to_excel(output_file, index=False)
    return True

批量回答结果

4. 知识库更新机制

系统支持知识库的实时更新，包括新增文档和更新文档：

def add_documents(self, docs: List[Document]) -> None:
    """添加文档到知识库"""
    # 添加到FAISS向量存储
    if self.vector_store is None:
        self.vector_store = FAISS.from_documents(docs, self.embeddings)
    else:
        self.vector_store.add_documents(docs)
    
    # 添加到BM25检索器
    if self.bm25_retriever is None:
        self.bm25_retriever = BM25Retriever.from_documents(docs)
    else:
        # 更新BM25检索器
        existing_docs = self.bm25_retriever.docs
        all_docs = existing_docs + docs
        self.bm25_retriever = BM25Retriever.from_documents(all_docs)