Allen正心正念2025-CSDN博客

原创 cursor快速了解项目结构-自己用

帮我梳理下整个项目的主体结构，并梳理为整个项目的功能流程，最后整理在一个名为“主流程分析”的markdown文档中，根据以上功能流程，对每个主要步骤进行梳理，内容包含涉及的脚本文件名称、代码实现的功能逻辑步骤、文件中的核心功能代码、该脚本按流程承接的上个脚本名称及下个脚本名称等。【分步】2、根据以上功能流程，按照主要步骤，对每步分别创建一个markdown文档，内容包含涉及的脚本文件名称、代码实现的功能逻辑步骤、文件中的核心功能代码、该脚本按流程承接的上个脚本名称及下个脚本名称等。

2025-08-19 18:00:15 49

原创 pandas中df.to _dict(orient=‘records‘)方法的作用和场景说明

的核心功能是将 DataFrame按行转换为字典列表，每个字典代表一行数据，键为列名。它适用于数据序列化、机器学习特征工程和简化数据遍历，但需注意版本差异、列名格式和数据类型转换问题。

2025-08-15 14:55:10 281

原创正则表达式解析（三）

这两行代码都使用 Python 的re.sub()函数，用于对字符串进行正则表达式匹配和替换。

2025-08-13 22:55:15 873

原创 MCP与Function Call之间联系的关键问题&相关模型整理（注：模型信息来源网络）

结合闭源/开源类型、核心能力、支持时间等维度展开分析，信息主要来源于行业报告及厂商官方资料。国内主流闭源模型对Function Call的支持已较为普遍，而MCP作为新兴协议正在快速适配中。开源模型对Function Call的支持主要通过微调实现，而MCP适配依赖社区或厂商主动集成。的MCP支持最成熟，可直接通过JSON-RPC 2.0协议调用外部工具。以下是基于最新资料（截至2025年8月）整理的国内支持。

2025-08-13 14:05:46 703

原创正则表达式解析（二）

这个正则表达式用于检测文本内容（content）中是否包含至少三个步骤指示符（如中文步数、数字步骤或行首数字点）。它使用函数查找所有匹配的子串。如果匹配到的子串数量（len(...)）大于或等于 3，则条件为真。r"(第[一二三四五六七八九十]步|步骤\s*\d|^\s*\d+\.)"。使用了标志，这使得正则表达式中的（行首锚点）能匹配每行的开头，而不仅仅是整个字符串的开头。这个正则表达式用于检测文本内容（content）中是否包含 Markdown 或 HTML 格式的图片链接。它使用。

2025-08-12 21:29:04 729

原创自然语言处理关键库解析和使用方法- FuzzyWuzzy

FuzzyWuzzy 是一个用于的 Python 库，基于 Levenshtein 距离算法计算字符串差异。它擅长处理拼写错误、缩写或格式不一的文本，适用于数据清洗、搜索匹配等场景。

2025-08-12 17:47:25 814

原创复杂正则语句（表格数据）解析

基础数字（如研发费用金额）千位分隔数字（如123,456.78百分比数字（如45.67%其设计适应中文文本的灵活性（允许数字间存在汉字或空白）并忽略大小写差异。

2025-08-09 17:48:13 238

原创 nlp = spacy.load(“zh_core_web_sm“) 报错OSError: [E050] Can‘t find model ‘zh_core_web_sm‘，解决方法

该错误主要由模型未安装或版本冲突导致。安装，并确保环境与版本兼容性。确认模型与库的版本对应关系。

2025-08-09 17:06:00 343

原创大模型聊天UI构建神器——Chainlit库

想象一下，你想自己做一个像 ChatGPT 那样的聊天机器人应用，或者一个能帮你分析文档、回答问题的智能助手。你需要一个漂亮的网页界面让用户输入问题、看到回答，还需要后台程序来处理用户的输入、调用强大的人工智能模型（比如 OpenAI 的 GPT 模型）并返回结果。它是一个开源的 Python 库（就像一堆别人写好的、可以直接拿来用的代码模块）。它的核心目标就是让开发者能用最少的代码、最快的时间，构建出带有类似 ChatGPT 那种聊天界面的 AI 应用。访问用户上传的文件列表，然后读取文件内容进行处理。

2025-08-04 17:38:18 664

原创 Pandas操作之对列索引

场景推荐方法示例单列选择df['col']多列选择动态创建列按条件筛选行行列混合选择df.loc[行标签, 列标签]按位置选择df.iloc[行位置, 列位置]关键原则列操作优先使用方括号[]，避免点号属性访问（除非列名是简单字符串且无冲突）。涉及行选择时，明确用loc（标签）或iloc（位置）消除歧义。

2025-07-30 18:06:30 240

原创命令解析：nohup python action.py ＞ log0730.out 2＞&1 &

，确保即使用户退出终端或断开连接，进程仍继续运行。调用 Python 解释器执行名为。可实时监控日志，或通过。）重定向到标准输出（

2025-07-30 14:08:47 361

原创 GitLab 中的分支和标签的定义及操作

分支开发人员在分支上进行功能开发和修复。通过合并请求将代码集成到主线分支。。标签在发布新版本时创建标签。用于标记代码的特定状态，方便回溯和修复。通过这个生产实例，你可以清楚地看到分支和标签在实际开发中的不同用途和操作方式。

2025-07-30 09:25:20 769

原创大模型返回结果清洗与解析（二）——正则解析

中查找被三个反引号包裹的内容，这些内容可以是纯文本也可以是 JSON 格式，并且可以包含任意字符（包括换行符），并且忽略包裹内容前后的空白字符。如果找到匹配的内容，则返回一个 Match 对象；如果没有找到匹配的内容，则返回 None。总结：这段正则表达式的目的是在字符串。

2025-07-28 17:25:20 758

原创大模型返回结果清洗与解析（一）——json解析

大模型返回的JSON字符串常因非标准格式导致解析失败（如包含```json标记或额外描述文本）。

2025-07-28 17:18:31 345

原创在用pycharm调试代码时，总在控制窗口报错UnicodeDecodeError: ‘utf-8‘ codec can‘t decode bytes in position 1022-1023: u

优先尝试。

2025-07-28 16:33:20 327

原创知识库评估及相关概念统计方法

指标原理统计方法上下文相关性检索到的上下文是否与问题相关使用LLM判断上下文是否有用上下文召回率检索到的上下文中是否包含真实答案的关键信息使用LLM判断真实答案中的信息是否在上下文中出现忠实度生成的答案是否基于检索到的上下文将答案分解成声明，判断每个声明是否在上下文中出现答案相关性生成的答案是否与问题相关从答案中生成潜在问题，计算与原始问题的相似度通过这些指标，我们可以全面评估RAG系统的性能，从而优化检索和生成模块，提高系统的整体表现。希望这些解释能帮助你更好地理解RAGAS评估的原理和方法。

2025-07-28 14:13:50 392

原创大模型领域强化学习概念初识

在大模型领域，SFT、RLHF、PPO和DPO是四种常见的技术，它们各自有不同的特点和应用场景。以下通过例子更好地理解它们之间的区别。

2025-07-28 09:37:45 261

原创 multiprocessing 模块及其底层机制 spawn_main 在大模型应用中的场景

模块及其底层机制spawn_main在大模型应用及服务中扮演着关键角色，尤其在分布式计算、资源隔离和服务部署等场景。

2025-07-24 15:17:41 518

原创 multiprocessing模块使用方法（三）

spawn_main是 Python模块中用于初始化子进程的核心底层函数，其设计初衷是解决跨平台进程创建的复杂性问题。以下从概念解析、命令行用途、实际应用场景三个维度展开说明。

2025-07-24 15:13:07 857

原创 multiprocessing模块使用方法（二）

spawn_main是多进程spawn为冻结程序和跨平台场景提供稳定进程启动支撑分布式计算框架的底层通信开发建议：优先使用或标准库的Process封装，仅在特殊场景（如自定义进程管理器）才需深入理解其机制。

2025-07-24 15:10:04 479

原创 multiprocessing模块使用方法（一）

通过多进程部署服务，可显著提升系统性能和可靠性，尤其适合计算密集型和多服务协同场景。但需权衡进程创建开销与收益。

2025-07-24 14:58:37 425

原创 LlamaIndex框架及组成介绍-初版

以下是对LlamaIndex框架的全面解析，包含组件构成、核心功能、使用方法和代码示例。LlamaIndex的核心定位是，专注于解决问题，与LangChain形成互补（LangChain侧重流程编排，LlamaIndex侧重数据连接）。

2025-07-23 09:35:33 874

原创 Linux命令集锦-个人整理（偏向进程和端口的查询）

已知PID后检查进程资源消耗，或批量筛选进程（如。（Socket Statistics）取代。📌 资料显示此方法常用于应急响应。获取端口对应的PID，再用。

2025-07-22 16:18:44 809

原创 windows11系统上wsl安装安装了neo4j，可是打开浏览器输入http:/localhost:7474,显示“该网页无法正常运作，localhost未发送任何数据”

在window11的wsl中安装了neo4j后，sudo neo4j查看neo4j是能正常运行的，可是在浏览器中查看localhost:7474却无法连接。

2025-07-22 15:37:35 374

原创 SSH远程连接命令——适用PC控制端和VS code

【代码】SSH远程连接命令——适用PC控制端和VS code。

2025-07-18 13:19:25 74

原创代码细节-transformers加载大模型方法中参数解析及批量input处理方法

输入处理流程按角色和内容拼接消息列表（如[用户: query]末尾添加生成提示符（如将拼接后的文本转换为 Token ID 序列（数值化）。返回 PyTorch 张量格式的字典（含input_ids等键）。输出示例inputs = {"input_ids": tensor([[ 100, 2034, ... ]]), # Token ID 序列"attention_mask": tensor([[1, 1, ... ]]) # 掩码标识有效部分此输出可直接用于进行推理。

2025-07-10 15:32:11 409

原创记忆管理框架MemOS——在时序推理上较OpenAI提升159%

在大模型应用场景中：陪伴式对话、个性化推荐，到多轮任务协作，模型只靠一次推理、一次检索，远远不够。让 AI 拥有长期记忆，成为新一代大模型应用的关键。

2025-07-09 15:23:08 718 1

原创以MCP构建大模型应用的服务架构图-参考手机

如日历、地图、相机等。当AI Agent Core需要调用某个功能时，它会按照MCP的规范，将请求（包含意图、参数、上下文信息等）发送出去。它接收用户输入，利用大模型的自然语言理解（NLU）能力来明白用户的意图。当被调用的模块完成任务后，也会按照MCP的规范，将结果或状态反馈给AI Agent Core。AI Agent Core处理完任务后，将结果通过屏幕显示、语音播报等方式反馈给用户。它维护上下文 (Memory) ，记住对话历史、用户偏好等。可能是一些更小的专用模型或工具，比如计算器、翻译器等。

2025-07-09 14:27:27 251

原创 AI项目开发中遇到的关键问题

4、做AI，无论是产品、项目管理还是码农，都需要遇到好的、有追求、专心投入到业务而不是不懂装懂耍手段搞信息和资源封闭的人和团队的；3、AI项目人人都可说，公众号转发了一篇文章，就觉着自己掌握了这个知识；可做到80分容易，做到90分就不是说说这么简单了；2、AI项目是持续性演进项目，需要细心打磨；可现状是急功近利，跑马圈地阶段；5、做AI，需要有恒心和毅力，需要做好精力管理；1、与之前点-线-面-体的分析能够对应起来；AI应用和服务推进过程中遇到的问题——

2025-07-08 10:49:38 224

原创 AI 智能体记忆系统关键技术

2025-07-07 17:21:56 430

原创一个小时学不出一个大学士出来！一个小时只能做一个小时的事，学一小时的知识-202506

因为只有把那些消耗你的小人、琐事、杂念都给彻底割离抛弃，你才有办法让滋养你的贵人、正事、善念填充进你的人生。否则，同样的精力心血花费下去，你就必然辛劳困苦却依然一事无成。所有人的命运转折，都是从觉醒这一点开始的。越是生活困顿迷茫的时候，越是要下决心把现有的生活状态给摧毁并重建。

2025-07-04 09:11:14 92

原创增加砝码，爱自己-202503

当你做到了，不仅你的“过去”改变了，“现在，未来”也都改变了。没有人记得你“昨天”的样子，他们记得的…你的“当下”有创造的力量，你的“决定权”在自己手中，在自己觉醒的灵魂中。爱自己其中最重要的检验方式是与真实的自己对齐。过去不曾存在，如果想要改变过去，那么，**“当下”就可以增添砝码去改变。**这个“过去”才是真正的改变了。后悔没有为自己而活？在意识的那一刻，不是想要改变过去，不断的懊悔对自己说：“如果为自己活就好了”…敢于表达，你的卡点就可以化解，因为你不断的在用意识与真实的自己对齐，所以破局在日程了。

2025-07-04 09:01:37 124

原创《MCP-Zero: Active Tool Discovery for Autonomous LLM Agents》解决多MCP服务选择、复杂多步任务的MCP-Zero

摘要： MCP-Zero提出了一种主动代理框架，解决大模型工具调用中的高开销和多步任务难题。其核心通过分层检索（先筛选服务器再匹配工具）和迭代请求机制，动态构建跨域工具链，相比传统方法减少98%的token消耗（如APIBank测试中）。实验显示，该框架在3000工具库中准确率达95.5%，且多轮对话性能稳定（传统方法下降37%），但依赖模型能力与检索精度。适用于代码调试等需多工具协同的复杂场景。

2025-07-03 10:53:33 403

原创 Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

提出了Mem0，一个可扩展的以记忆为中心的架构，通过动态提取、合并和检索正在进行的对话中的重要信息来解决上述问题。进一步提出了Mem0g，一个增强的变体，利用基于图的记忆表示来捕捉对话元素之间的复杂关系结构。

2025-06-27 16:13:47 442

原创智能体记忆原理-prompt设计

【代码】智能体记忆原理-prompt设计。

2025-06-27 15:48:22 221

原创 RAG技术栈中三种LLM微调方法对比分析- DAP&RAFT&混合检索微调

本文解析了RAG技术栈中三种LLM微调方法：领域自适应预训练(DAP)、检索增强微调(RAFT)和混合检索微调。DAP通过追加领域数据预训练适应专业术语，适合静态专业领域；RAFT训练模型结合检索文档生成答案，提升知识密集型QA的准确性；混合方法动态选择检索策略，平衡效率与准确性。三种方法在语料格式、训练步骤和应用场景上各有特点：DAP需大量领域文本，RAFT需带检索文档的QA对，混合方法需复杂度标注数据。选择时需考虑问题复杂度、知识更新频率等因素，专业领域优先DAP，动态知识库适用RAFT，复杂场景推荐混

2025-06-26 09:49:42 697

原创大模型智能体开发——安全护栏

2025-06-25 18:47:38 161

原创工程优化——WebSocket、WSS（WebSocket Secure）和SSE（Server-Sent Events）通信对比

WebSocket、WSS和SSE是三种常见的实时通信技术，主要区别在于通信方向、协议实现和数据格式。WebSocket支持双向通信（如聊天和游戏），WSS是其加密版本，适用于金融等高安全场景；SSE仅支持服务器向客户端的单向文本推送（如新闻更新）。Python示例展示了三种技术的实现方式。选择原则：双向交互用WebSocket，单向推送用SSE，安全需求选WSS。WebSocket功能强大但复杂，SSE轻量简单，WSS提供加密通信。

2025-06-24 15:00:23 438

原创多智能体框架中两种图StateGraph和MessageGraph的对比分析

摘要：LangGraph框架中的StateGraph和MessageGraph是两类核心图模型，主要区别在于状态管理的灵活性、适用场景和实现复杂度。StateGraph支持自定义状态对象和复杂逻辑（如多步骤任务流程），需显式定义状态结构和更新规则，适合多智能体协作等场景。MessageGraph仅管理消息列表，简化了对话系统设计（如聊天机器人），但功能受限。选择依据取决于需求：复杂状态管理用StateGraph，纯对话场景用MessageGraph。两者在状态结构、适用性和代码复杂度上形成鲜明对比。

2025-06-23 17:22:27 971

原创 CDN（内容分发网络）概念介绍

当用户访问网站时，CDN会根据用户所在位置，自动选择距离最近的服务器提供内容。例如，深圳用户访问北京的服务器时，如果CDN在两地之间有节点，内容会直接从该节点传输，而不是从北京服务器。：双十一期间，用户下单后，商品可能提前从就近的仓库发货，而不是从总部集中配送。CDN（内容分发网络）是一种通过技术手段让网络内容更快到达用户的方法，类似于“快递网络”，但更智能。：CDN通过中心平台调度流量，将用户请求分散到多个节点，避免单一服务器过载。：即使中心服务器故障，CDN节点仍能提供服务，保障业务连续性。

2025-06-23 15:23:38 436

空空如也

空空如也