添财小哥-CSDN博客

原创使用peewee报错： (2006, ‘Server has gone away‘)

摘要：MySQL连接因长时间空闲被服务器关闭，导致Peewee客户端报错。解决方案包括：调整MySQL的wait_timeout参数延长空闲连接时限；设置connect_timeout让连接失败时重试；启用autocommit自动提交事务；或使用PooledMySQLDatabase实现连接池管理，设置max_connections和stale_timeout控制连接复用。这些方法均可有效避免因连接超时导致的查询失败问题。（150字）

2025-06-12 10:47:33 110

原创 Python @dataclass 装饰器详解

Python 的 @dataclass 装饰器（Python 3.7+）用于简化纯数据类的定义，自动生成 __init__、__repr__ 等方法，减少样板代码。通过类型注解定义字段，支持默认值、排序、不可变（frozen=True）等特性。适用于数据容器（如配置、记录类）、不可变对象等场景，显著提升代码简洁性和可维护性。核心机制是利用 __annotations__ 识别字段，动态生成方法，并支持继承与扩展（如 __post_init__ 钩子）。相比手动定义类，@dataclass 更高效且类型友好。

2025-06-10 11:05:17 805

原创召回增强RAPTOR策略

摘要：论文提出了一种新型检索增强语言模型RAPTOR，通过递归聚类和摘要构建多层级树状索引结构。该方法首先将文档分割为文本块并进行嵌入聚类，然后逐层生成摘要形成树状层次，底层保留细节信息，高层提供抽象概述。实验表明，RAPTOR在复杂推理任务中表现优异，如在QuALITY基准测试中结合GPT-4将准确率提升20%。相比传统检索方法仅获取短文本片段，RAPTOR能够整合文档不同层级的语义信息，显著提升对长文档的理解能力。未来研究将聚焦计算效率优化和多模态扩展等方向。

2025-05-28 20:41:00 968

原创 docker容器间服务访问的问题

本文介绍了在本地Docker环境中部署MySQL数据库的过程，包括使用docker-compose启动服务、用VS Code插件连接数据库的方法。重点解决了当项目打包成Docker镜像后，容器间访问MySQL服务的问题。针对macOS系统，推荐使用Docker提供的host.docker.internal特殊主机名访问宿主机服务；对于Linux系统，则需通过添加运行参数或修改compose文件手动映射。文中提供了具体的配置示例和验证方法，帮助开发者在容器化环境下实现服务间的网络通信，同时避免因重建容器导致数

2025-05-28 19:54:20 1115

原创常见提示词攻击方法和防御手段——提示词越狱

提示词越狱（Prompt Jailbreaking）是一种针对大型语言模型（LLM）的攻击手段，通过精心设计的输入提示绕过模型的安全审查和伦理限制，使其生成被禁止的内容。其核心机制是利用模型对输入提示的依赖性，通过语义操纵、逻辑混淆或情境伪装等方式突破内容审查、信息泄露和伦理约束。常见的越狱类型包括伪装与情境构建、逻辑拆分与混淆、权限提权与对抗性攻击以及自动化攻击。典型案例有“奶奶漏洞”和DAN模式。防御措施包括输入过滤、语义增强、输出监控和对抗训练，但仍面临泛化性不足和对抗性攻击适应性差的挑战。提示词越狱

2025-05-19 20:41:07 992

原创 Python 中的 typing.ClassVar 详解

ClassVar 是 Python 中 typing 模块提供的一种类型注解工具，用于标记类变量（静态变量），帮助静态类型检查器区分类属性和实例属性。它不会改变运行时行为，仅用于类型提示。ClassVar 的主要用途包括共享配置、常量、dataclass 中排除实例字段等。与 @classmethod 和 @staticmethod 不同，ClassVar 关注的是数据级别的静态标记。常见误用包括在实例上赋值、省略类型参数、与 Final 一起使用等。正确使用 ClassVar 可以提高代码的可读性和类型安

2025-05-16 17:59:18 930

原创分步启动容器操作指南

本文介绍了如何通过 Docker 和 Docker Compose 部署一个 Python 项目。首先，确认项目结构，确保包含 Dockerfile、compose.yml、app.py 等必要文件。接着，使用 docker build 命令构建 Docker 镜像，并通过 docker-compose 启动容器。启动后，使用 docker ps 验证容器状态。若启动失败，可修改 compose.yml 文件，将启动命令改为 sleep infinity，然后进入容器手动排查问题。最后，通过 docker-

2025-05-13 17:51:36 180

原创常见提示词攻击方法和防御手段——提示词泄露

攻击者通过精心设计的输入诱导模型泄露其内部预设的提示词或敏感信息。这类攻击本质上是利用模型对自然语言指令的服从性，突破安全限制，暴露开发者设定的核心指令或用户隐私数据。通过攻击手段拿到你的智能体的提示词，拿到你的一些数据，拿到你的系统的内容，系统的功能、信息、解释等等。宏观上来它也是提示词注入的这样的一种形式。试图通过操纵模型的输出，让他给到我们部分或者全部的系统提示词，应用提示词的这样的一种行为。

2025-05-12 20:31:55 517

原创常见的提示词攻击方法和防御手段——提示词注入（Prompt Injection）攻击解析

提示词注入暴露了LLM在安全设计上的根本矛盾：模型的开放性（遵循指令）与安全性（限制滥用）之间的平衡。防御需结合技术改进（如安全前端设计）、模型训练优化（对抗学习）和用户教育（警惕可疑输入）。随着AI应用的普及，这类攻击可能成为未来网络安全的主战场之一。

2025-05-08 14:09:14 926

原创大模型提示词常用范式

在人工智能的魔法世界中，是人与机器对话的“咒语”——它决定了你是召唤出一只温顺的精灵，还是一头失控的巨龙。大模型（如GPT-4、Claude等）虽拥有海量知识，却像一位沉默的智者，等待你抛出精准的提问。❌“写一篇关于环保的文章”→ 可能得到一篇泛泛而谈的科普文。✅“以科幻小说的形式，描述一个因过度碳排放而濒临崩溃的未来城市，主角是一名试图用AI拯救世界的工程师”→ 激发创意、结构清晰的独特故事。

2025-05-08 13:44:01 1153

原创 RAGFlow使用过程中遇到的问题： exesql组件结果格式修改

可以看到执行SQL的时候，将输出markdown的参数中传入了 format 的参数，并且将int类型识别为了flow类型，所以造成这种问题。exesql组件执行结果一般为表格，默认是markdown格式的表格，但在实践过程中，发现展示时是有问题的：整型数值以浮点型格式进行展示。另外，我们的业务中，在展示浮点型数值时仅需要保留小数点后四位，这就需要修改exesql组件的结果返回格式。简单的修改，只需要将整型字段转换为字符串类型。进行修改，修改好后，没问题了。

2025-05-07 13:50:13 268

原创 ragflow基本功能实践

首次进入主页面，会显示欢迎信息，由于还没有配置知识库和工作流，所以面板为空。

2025-05-06 11:44:26 1265

原创 Python环境管理工具对比

工具选择需根据项目需求、团队习惯和生态兼容性综合考量。：简单项目、快速原型开发或需要标准化依赖管理的场景。：大型项目或需要打包发布的 Python 库开发。：数据科学、机器学习或需要跨语言依赖管理的项目。：复杂生产环境部署或需要完全复现开发环境的场景。：需要同时处理多个 Python 版本的项目。：需要严格依赖管理和多环境支持的项目。：追求高效开发体验的个人或团队项目。值得关注，但成熟工具（如。

2025-05-06 10:12:46 839

原创 Linux 部署以paddle Serving 的方式部署 PaddleOCR CPU版本

强烈建议您在Docker内构建Paddle Serving，更多镜像请查看Docker镜像列表。：Paddle Serving项目仅支持，接下来所有的与Python/Pip相关的操作都需要选择正确的Python版本。：以下示例中GPU环境均为cuda11.2-cudnn8，如果您使用Python Pipeline来部署，并需要Nvidia TensorRT来优化预测性能，请参考以下说明来选择其他版本。

2025-04-30 17:48:53 1732 5

原创 chroma写入docs报错

] which is a list in upsert.\n\nTry filtering complex metadata from the document using langchain_community.vectorstores.utils.filter_complex_metadata.\n’这里使用filter_complex_metadata 对 docs当中的复杂格式的Metadata字段进行了过滤来解决这个问题。

2024-12-25 11:32:12 515

翻译 HNSW 索引简介及Chroma索引配置

为了减少计算向量的数量，Db 像 ChromaDB 一样引入了索引的概念。索引是一个概念，它通过引入一个向量/嵌入来加快计算速度，该向量/嵌入将表示一组类似的向量嵌入。此索引的重要性在于，它在单个嵌入向量之上创建一个附加层，其中每个索引映射到一组相似的向量。这个概念的优点是，每当使用用户输入查询嵌入从 ChromaDB 中检索类似的答案时，它不需要与每个向量进行比较，而是首先尝试找到查询和索引之间的距离。确定合适和相似的索引后，仅将查询嵌入与所选索引相关的向量嵌入进行比较，该向量嵌入与查询的相似度最高。

2024-12-19 16:05:54 430

翻译向量数据库对比：Faiss vs Chroma vs Milvus

向量数据库是一种专门的存储系统，旨在有效地处理和查询高维向量数据，通常用于快速检索和相似性搜索。简而言之，我们使用它们来查找不一定是“精确”而是“相似”的数据，这使得它们对于处理大量文档、图像和音频文件的用户非常有用。如今，它们在 RAG（检索增强生成）等 AI 驱动的应用程序中越来越受欢迎。由于 AI 的速度仍然相对较慢，矢量数据库可以充当前线，检索相关数据以供 AI 稍后处理。那么，我们实际上在其中存储了什么呢？原始数据？不完全是。我们存储从原始数据中嵌入的向量。

2024-12-19 15:27:49 718

原创 python 应用开发配置管理工具包—— ultra-simple-config

今天推荐一个配置管理工具包ultra_simple_config，它并不是一个广为人知的Python库，它可能是一个自定义的库或者是一个较小的项目，因此关于它的信息可能不如其他流行的库那样容易找到。但是，根据其名称，我们可以推测它是一个用于简化配置管理的Python库。由于ultra_simple_config不是一个标准库或者广泛使用的第三方库，以下内容是基于其名称和一般此类库的功能来推测的。ultra_simple_config 可能是一个用于加载和解析配置设置的Python库。

2024-12-11 11:39:42 335

原创 python 应用开发日志工具包—— loguru

Loguru是一个Python库，旨在让日志记录变得愉快。你是否曾因为懒得配置日志记录器而直接使用print()？… 我有过，然而日志记录对于每个应用程序都是基本的，它简化了调试过程。使用Loguru，你没有理由不从一开始就使用日志记录，这就像导入from loguru import logger一样简单。此外，这个库旨在通过添加一系列有用的功能来解决标准日志记录器的缺陷，从而减轻Python日志记录的痛苦。在你的应用程序中使用日志应该是自动的，Loguru试图使其既愉快又强大。

2024-12-11 11:28:26 399

原创本机开代理后访问不到ollama模型服务问题解决

解决此问题是通过参考这篇文章：https://ihave.news/post/20241113195747.html。问题已经解决，我的理解如有不对，还请指正！

2024-12-05 18:21:34 1521 4

原创 AI Agent工作流程：关于是使用 LangGraph 还是 LangChain 进行构建的完整指南

你可以不使用 LangGraph，不使用 LangChain，或者同时使用两者！通过将 AutoGen 代理设为图中自己的节点，也完全可以探索将 LangGraph 基于图的编排与其他 Agentic AI 框架（如 MSFT 的 AutoGen）结合使用。可以肯定地说，有很多选择——而且可能会让人感到不知所措。那么，经过所有这些研究，我应该什么时候使用呢？

2024-12-04 19:54:06 936

原创 AI Agent框架如何选择？LangGraph vs CrewAI vs OpenAI Swarm

由 LLMs经历了起起落落。从 2023 年 AutoGPT 和 BabyAGI 的病毒式演示到今天更精致的框架，AI Agent的概念——LLMs自主执行端到端任务的 LLM——既引起了人们的想象力，也引起了怀疑。为什么重新引起人们的兴趣？LLMs 在过去 9 个月中进行了重大升级：更长的上下文窗口、结构化的输出、更好的推理和简单的工具集成。这些进步使构建可靠的AI Agent应用程序比以往任何时候都更加可行。

2024-12-04 18:23:14 1661

原创常用Agent框架对比： LangGraph Vs Autogen Vs Crew AI

AI 中的agent是一种应用程序，它使用 LLMs 自主执行特定任务。这些任务的范围从回答研究问题到调用后端服务。agent在需要开放式答案的场景中特别有用，他们可以提供非常有效的解决方案。客户支持agent能够解决客户查询、提供信息和自主解决问题。而代码生成agent可以生成、调试和运行代码片段，帮助开发人员自动执行重复性任务。自动化 AI 驱动的开发Autogen 和 Crew AI 因其对话方法和简单性而具有优势。

2024-12-04 16:51:16 3114

原创交叉熵损失函数中为什么核心是使用对数函数计算惩罚

惩罚错误预测的严重性：对数函数对预测概率小的类别给予更大惩罚，有助于提升模型对正确类别的信心。与最大似然估计的关系：交叉熵损失可以看作是最大化对数似然的负值，符合概率模型的优化目标。提高数值稳定性：对数能够平滑极小的概率值，避免计算过程中的数值不稳定。梯度计算的简化：对数函数具有良好的导数性质，能有效支持反向传播和梯度下降的计算。适应概率分布的结构：交叉熵损失能够度量真实概率分布和预测概率分布之间的差异，符合概率论中的基本原理。

2024-11-29 10:25:32 835

原创 fasttext文本分类实战

让我们通过一个简单的练习来说明这一点，给出以下 bigrams，尝试重构原始句子：‘all out’, ‘I am’, ‘of bubblegum’, ‘out of’ 和 ‘am all’。在本教程中，我们感兴趣的是构建一个分类器，自动识别关于烹饪的Stackexchange问题的主题。当我们想要将一个文档分配给多个标签时，我们仍然可以使用softmax损失，并调整预测参数，即要预测的标签数量和预测概率的阈值。预测的五个标签中，有一个是正确的，即equipment，这给出了0.20的精确度。

2024-11-20 16:23:20 1191

翻译 Llamaindex指南，用于构建LLM应用程序（译）

这使得您的LLM能够提供高效的答案，构建更强大的应用程序，并真正发挥其全部潜力，让您专注于有趣的部分——创造一些了不起的东西！**数据检索和索引：**LlamaIndex提供了连接器，可以无缝地从各种来源检索您的数据，包括数据库（SQL）、文档（PDFs）、API等。它提供了强大的工具来存储和索引数据，使其适用于不同的用例，如文档问答、数据增强的聊天机器人和知识代理。聊天存储（对于聊天应用程序是可选的）：如果您正在构建一个聊天应用程序，LlamaIndex提供专用的聊天消息存储，保持您的对话井然有序。

2024-11-18 16:02:40 284

原创 llamaIndex和langchain对比及优劣对比

虽然LlamaIndex在搜索和检索方面表现出色，并且对于需要快速准确数据访问的应用程序非常有用，但LangChain提供了一套全面的工具集和多功能性，非常适合开发复杂的AI驱动的工作流程和解决方案。在比较LlamaIndex和LangChain的实际部署时，重要的是要记住，每个工具都有其独特的优势，适用于现实世界的不同应用。通过利用大型语言模型（LLMs）的力量，LlamaIndex可以处理和理解复杂的查询，为用户提供精确且在情境中适当的输出，所需时间只是传统方法的一小部分。

2024-11-11 17:24:56 3300 4

原创一个使用大模型进行分类的提示词示例

下面是一个基本的例子，如果没有达到要求，可以增加一些正例或者负例，或者在任务要求中更加详细的描述每个类别的特点。使用大模型进行分类的话，基本上只调整提示词就可以让准确率提升到90%以上。另外可以对badcase进行分析，以调整提示词。

2024-10-18 17:01:14 686

原创 RAG学习及相关技术

增强检索生成(RAG)是一种使用后处理的架构解决方案，目的就是为了解决LLM遇到的问题。如果用户想LLM提出问题，LLM能够直接给出准确以及有依据的回答，让用户可以100%相信它的回答的话，完全不需要RAG这种后处理的解决方案。

2024-09-30 14:58:48 1488 2

原创 qlora原理

我们提出了QLORA，这是一种高效的微调方法，它减少了足够的内存使用，可以在单个48GB GPU上微调一个650亿参数的模型，同时保留了完整的16位微调任务性能。QLORA通过一个冻结的、4位量化的预训练语言模型向后传播梯度到低秩适配器（LoRA）。我们最好的模型系列，我们称之为Guanaco，在Vicuna基准测试中超过了所有以前公开发布的模型，达到了ChatGPT 99.3%的性能水平，而仅在单个GPU上微调了24小时。QLORA引入了一系列创新，以节省内存而不牺牲性能：(a)

2024-09-29 15:40:21 1043

原创大模型文本分类任务——提示词优化建议

在自然语言处理（NLP）领域，大型模型已展现出卓越的性能，涵盖了包括判别式任务和生成式任务在内的多种传统NLP任务。尽管基础NLP大模型的表现已相当出色，但在特定工业领域或场景中，对准确率的要求可能更为严苛。当然，如果上述建议仍未能满足要求，我们可以在后期对错误案例进行单独分析，或者切换至符合条件的其他大型模型。这两种方案适用于不同的场景：当场景对准确率的要求极高，且领域知识包含大量专业术语时，进行模型微调是必要的；二、明确指令要求，不仅要清晰地表述期望大模型执行的任务，还需指示其判断和思考的过程及依据。

2024-09-18 15:57:34 1091

原创 windows上进行git初始化时报错：fatal: unknown write failure on standard output

命令时遇到 “unknown write failure on standard output” 错误，这通常指示在尝试创建新的 Git 仓库时，有一些底层的写入问题。这个工具的下载可能还有些不方便，可以到我的分享中下载，路径是：https://download.csdn.net/download/weixin_36893273/89381366。检查您的 Git 配置，特别是与编辑器或 diff 工具相关的配置。确保您的 Git 版本是最新的，或者至少是兼容的版本。如果是，您需要释放一些空间才能继续。

2024-05-31 15:47:56 3449 1

原创 python项目中的日志定义

以上方法，简单的创建了一个获取logger的方法，更个性化或者更复杂的配置可以参考官方文档：https://docs.python.org/zh-cn/3/library/logging.html。python日志定义，包含配置文件，和日志实例创建方法。一、日志创建方法，创建一个loger实例。

2024-05-31 14:17:41 305 1

原创 python项目报错

原因，在调用logger.info()方法时，直接將非str类型的变量放入其中。直接將需要打印的变量强制转为str类型。

2024-05-30 09:57:39 535

原创如何让大模型更聪明？

另一方面，这个架构对于硬件的依赖是很深的，可以看到，现在的大模型越来越依赖参数量的大小，从而对硬件的依赖也越来越深，巨大的参数量代表着训练和推理对机器资源的要求更高，更大。比如 2010年以前大家更多的是使用机器学习算法，它的优点是可解释性更强，但是机器学习算法对于CV和NLP的支持并不是很好，当时的NLP和CV领域大多数还是用的专家系统或者规则，当时也有LSTM和CNN等深度学习模型，但是由于算力的局限性，造成了一直没有在工业界普遍的应用。那么，如何让大模型变得更聪明呢？

2024-05-27 19:48:31 373

原创开源大模型与闭源大模型，你更看好哪一方？

开源：包括模型源码开源，论文或者技术文章开源，预训练的参数也开源，目前比较流行的大模型开源网站包括 huggingface，国内的魔搭社区等闭源：只提供api接口或者web访问服务，一般有公司运营优化。服务分为免费版和收费版。

2024-05-25 13:49:27 1761 1

原创 python项目中的配置文件定义

这种方法适用于小项目，方便高效，也是我常用的方式，使用方便，直接import就可以；但是缺点也很明显，不容易拓展。...

2024-05-22 19:52:23 837

原创 ElasticSearch的python api以及dev tool方式的基本操作

如果没有额外的安全验证，需要指定的内容包括：集群ip地址（list类型），端口号（每个节点的端口号可能不同，这里是字符串，代表所有节点的端口号是一样的），用户名，密码。如果你的Elasticsearch集群启用了安全性功能，你可能需要确保你的Kibana实例已经使用具有足够权限的用户进行了认证，以便能够执行删除索引的操作。es的查询方式很灵活，可以单独写一篇文章，就先不列在这里面了，它可以模糊查询，可以计算文档距离，也可以精确查询，可以说非常丰富灵活。在你的Web浏览器中打开Kibana的Web界面。

2024-05-11 17:00:34 1311 5

原创 git更新代码的步骤

本文介绍了Git的基本操作流程，包括创建本地分支、同步远程分支、提交代码、推送分支、切换分支、合并分支、打包代码以及拉取远程新分支的方法。具体步骤包括：使用git checkout -b创建并切换到新分支，git pull同步远程代码，git add和git commit提交更改，git push推送本地分支到远程，git checkout切换分支，git merge合并分支，git archive打包代码，以及多种拉取远程分支的方式。此外，还提供了解决分支无跟踪信息问题的两种方法。这些操作涵盖了Git日常

2024-05-11 16:14:53 2953

原创 stable diffusion WebUi本地安装

Stable Diffusion是一种先进的文本到图像的生成模型，它可以根据给定的文本输入生成高度逼真的图像。Stable Diffusion模型因其高效性和灵活性，在AI图像生成领域引起了广泛关注，并在实际应用中展示了其强大的能力。随着技术的不断发展，Stable Diffusion预计将在更多领域发挥重要作用，推动机器学习和深度学习的进步。

2024-05-11 14:10:58 636 1

c++ primer 第六版pdf+代码实现

C++是一种通用的、静态类型的、多范式的编程语言，最初由Bjarne Stroustrup在20世纪80年代初期作为C语言的扩展开发。C++被设计为提供对系统硬件的低级访问，同时提供高级的抽象特性，使其成为一种高效且功能强大的编程语言。以下是C++的一些关键特性：面向对象：C++是一种面向对象的语言，这意味着它支持类和对象的概念，允许程序员通过封装、继承和多态来构建复杂的软件系统。泛型编程：C++支持泛型编程，允许程序员编写独立于特定数据类型的算法和数据结构。静态类型：C++是一种静态类型语言，这意味着类型必须在编译时已知，这有助于捕捉类型错误并优化性能。内存管理：C++提供了手动内存管理的能力，包括构造函数、析构函数、以及new和delete操作符，允许程序员精确控制内存的使用。异常处理：C++具有异常处理机制，允许程序在发生错误时以受控的方式响应。模板：C++的模板提供了一种创建泛型数据结构和函数的方法，支持类型参数和模板特化。标准库：C++有一个丰富的标准库（STL），包括容器、迭代器、算法和函数对象。

2024-06-03

远程ssh连接工具MobaXterm，完全免费，可以拖动传输文件，及教程汇总

MobaXterm是一款功能强大的远程会话管理工具，它集成了SSH、X11、RDP、VNC、FTP、MOSH等多种远程网络工具，以及bash、ls、cat、sed、grep、awk、rsync等Unix命令集。用户可以通过MobaXterm在Windows操作系统下连接并操作Linux服务器。 MobaXterm的主要特点包括：界面友好，使用方便，支持更换皮肤。支持多种连接方式，如SSH、X11、RDP、VNC、FTP等。内置SFTP文件传输功能，方便文件管理。支持宏功能，可以录制操作并重复执行。自带文本编辑器，方便编辑服务器中的文本文件。支持VNC、RDP、Xdmcp等远程桌面连接。自带Linux环境，方便学习和使用Linux命令。支持搭建FTP服务器，上传文件供他人下载。支持X server，可远程运行X窗口程序。 MobaXterm分为免费开源版和收费专业版。免费版提供了基本的功能，但有一些限制，如会话数、SSH隧道数等。专业版则提供了更多高级功能和定制化选项。总之，MobaXterm是一款非常实用的远程终端软件。

2024-05-31

Visual Basic 语言学习资料

vbscript Visual Basic（VB）是一种由微软开发的事件驱动编程语言，它最初发布于1991年。VB以其易于使用的图形用户界面（GUI）和快速应用程序开发（RAD）能力而闻名。以下是Visual Basic的一些关键特点和用途： 1. **易用性**：VB提供了一种相对简单的方式来创建应用程序，特别是对于初学者和那些没有深入编程背景的用户。 2. **集成开发环境（IDE）**：VB通常与Microsoft Visual Studio集成，提供了一个强大的开发环境，包括调试工具、代码编辑器和项目管理工具。 3. **面向对象**：虽然VB是一种过程式语言，但它也支持面向对象的编程范式，允许开发者创建可重用的对象和组件。 4. **组件对象模型（COM）**：VB支持COM，这是一种允许软件组件进行交互的模型，VB应用程序可以创建、使用和与这些组件集成。随着时间的推移，VB经历了多次迭代，包括Visual Basic 6.0和后来的VB.NET，后者是.NET框架的一部分，支持更现代的编程范式和功能。VB.NET与原始的VB有很大的不同，提供了对.NET框架的全面访问.

2024-05-29

利用python进行科学计算工具指南

利用Python进行科学计算的工具包主要包括以下几个： 1. **NumPy**：提供多维数组对象ndarray，支持大规模数值计算，是许多其他科学计算库的基础。 2. **SciPy**：基于NumPy，提供科学和工程领域中常用的算法和数学工具，如插值、优化、统计和信号处理。 3. **Pandas**：提供高性能、易用的数据结构和数据分析工具，主要用于数据清洗、处理和分析。 4. **Matplotlib**：生成各种格式的高质量图表和可视化，支持静态、动态和交互式可视化。 5. **SymPy**：用于符号数学计算，包括代数、微积分、方程式求解和离散数学。 6. **Scikit-learn**：基于NumPy和SciPy，提供简单高效的机器学习库，用于数据挖掘和数据分析。

2024-05-27

numpy-pandas-matplotlib使用指南，都是一些实例，且全部是jupyter文件，方便运行查看效果

Pandas、NumPy和Matplotlib是Python中用于数据处理和可视化的三个重要库： Pandas：数据分析：提供DataFrame和Series数据结构，用于灵活高效的数据操作和分析。数据清洗：支持处理缺失数据、数据过滤和转换。数据合并：能够合并、连接和重塑数据集。时间序列：具有强大的时间序列分析功能。数据可视化：与Matplotlib集成，提供绘图功能。 NumPy：多维数组：核心是ndarray对象，用于高效的数值计算。数学函数：提供大量的数学函数，支持数组的向量化操作。线性代数：包括矩阵运算和分解等。随机数：用于生成随机数和模拟概率分布。 Matplotlib：图表绘制：生成各种格式的高质量图表，如线图、柱状图、散点图等。自定义：提供丰富的自定义选项，调整图表样式。交互性：与IPython和Jupyter Notebook集成，支持交互式绘图。动画：支持创建动画和视频。这三个库共同构成了Python数据分析的基础，使得数据科学家和分析师能够从数据导入、处理、分析到可视化的整个流程都使用Python完成。

2024-05-27

这个文档介绍了，如何在arm架构的系统机器上面安装python环境，我们首先安装miniconda，方便管理python的多版

anaconda安装python Anaconda是一个流行的Python和R语言的发行版，它旨在简化包管理和部署。Anaconda由Anaconda, Inc.（原 Continuum Analytics）开发，它提供了一个集中的环境管理器、包管理系统和Python/R的发行版。以下是Anaconda的一些主要特点： 1. **环境管理**：Anaconda允许用户创建隔离的环境，每个环境可以有不同的库和Python版本，这有助于避免不同项目之间的依赖冲突。 2. **包管理**：Anaconda使用Conda作为其包管理器，它不仅可以安装Python包，还可以安装R语言的包以及其它语言的软件和库。 3. **跨平台**：Anaconda支持Windows、macOS和Linux操作系统。 4. **易于安装**：Anaconda提供了一个图形用户界面（Anaconda Navigator）和命令行工具，使得安装和管理包变得简单。 5. **社区支持**：Anaconda拥有一个庞大的社区，用户可以轻松找到所需的包和解决方案。 6. **科学计算和数据分析**：Ana

2024-05-25

fastgestures安装包，模拟mac的触控板收拾，两指代表右击，三指拖拽

安装包 FastGestures 是一款功能丰富的全局手势软件，它支持鼠标、触控板以及触摸屏。用户可以通过定义一组助记符来映射自定义的操作，如在不同软件之间切换、打开系统便签、记事本、执行复制粘贴等操作[^3^][^10^]。FastGestures 提供了多种手势模式，包括手指滑动、手掌平移、手势组合等，旨在提高用户的工作效率和便捷性[^8^]。 FastGestures 的一些主要功能包括： 1. **鼠标手势**：用户可以自定义鼠标手势来执行特定的命令或快捷操作。 2. **手势快捷键**：允许用户自定义不限数量的字母数字符号，形成手势快捷键。 3. **激活/启动应用**：用户可以将常用的应用添加到手势中，快速启动或激活应用窗口。 4. **三指拖拽**：在触控板上实现三指拖动功能，提高浏览网页等操作的便捷性。 5. **连续触发**：可以定义连续操作，如连续关闭标签、调节系统声音、亮度等。 6. **资源管理器导航**：一键排列所有资源管理器文件夹，并在已打开的文件夹窗口之间有序切换。 7. **手势提示**：帮助用户记忆复杂的手势操作。 8. **执行命令行脚本**：用

2024-05-21

chatgpt4的免费api，还支持以下模型：gpt-4-all,gpt-3.5-turbo,gpt-3.5-turbo-16k

chatgpt4 我建议你首先复制这个项目。一些网站可能随时会下线。仍在努力保持更新。在这里已经实现了模型：如果你不希望你的网站出现在这里，请提出一个问题，我将立即将其移除。不幸的是，这里的大多数网站现在已经不再可用。 ChatGPT 4是OpenAI开发的最新一代语言模型，它代表了人工智能在自然语言处理领域的一个重要进步。尽管目前没有具体的公开信息表明存在一个命名为"ChatGPT 4"的模型，但是可以基于OpenAI之前发布的模型，如GPT-3（生成式预训练转换器的第三版），来推测ChatGPT 4可能具备的一些特性和改进：更强大的语言理解能力：ChatGPT 4可能会在理解自然语言方面有显著提升，能够更准确地解析复杂的语句和上下文。更准确的响应生成：新一代模型可能会生成更准确、更连贯、更自然的文本响应。增强的上下文记忆：ChatGPT 4可能会有改进的记忆机制，使其能够更好地记住对话中早先提及的信息。

2024-05-15

python少儿编程课程代码实现-地址：https://kidscancode.org/lessons/

## 一、信奥和CSP的好处 ### 信奥的好处 ——参加国际赛，并获奖，可以直接报送985. —— 参加国赛获奖，获奖有机会直接报送 —— 国赛二等奖以上，只要分数线国本一线，可以直接上985等名校 ### CSP的好处小升初，部分省市有政策，需要具体看官网或者咨询教育机构 ## 二、学习路径（个人总结）： 3年级之前，scratch语言，主要锻炼孩子的逻辑思维 3年级之后：C++或者python，主要服务于考级考证(CSP)，通过市赛或者省赛有加分初二之后（有天赋的）：C++(NOI)，国赛或者国际赛，保送或者 985降分录取大学（软件或者计算机，算法相关专业）： ACM 大学计算机专业可以参加ACM ACM程序设计大赛是大学级别最高的脑力竞赛，素来被冠以"程序设计的奥林匹克"的尊称。大赛至今已有近40年的历史，是世界范围内历史最悠久、规模最大的程序设计竞赛。比赛形式是:从各大洲区域预赛出线的参赛队伍，于指定的时间、地点参加世界级的决赛，由1个教练、3个成员组成的小组应用一台计算机解决7到13个生活中的实际问题。

2024-05-15

近期的一些agent大模型产品，包括官方服务的页面

AI Agent大模型是基于大型语言模型（LLMs）构建的智能体，它们能够执行复杂的任务，包括与环境的交互、决策制定和执行操作。这些智能体通过自然语言处理技术与人类或其他智能体进行交流，具备理解和生成语言的能力。 AI Agent的核心组成部分包括任务规划、记忆系统、工具使用以及与外部世界交互的能力。任务规划涉及将复杂任务拆解为更小的子任务，并通过自我反思来优化结果。记忆系统则包括短期记忆和长期记忆，短期记忆处理聊天上下文和任务规划内容，而长期记忆则通过外部数据库实现。工具使用能力让Agent能够调用外部API或其他专业工具来解决问题。此外，AI Agent还具备社会能力，可以通过社会交互进行协作和竞争。 AI Agent在多个领域都有应用，包括客户服务、教育、医疗、游戏、软件开发和科学研究等。它们在执行任务和提高工作效率方面展现出强大的能力，尤其在需要创造力和适应性的领域。然而，AI Agent的发展仍面临一些挑战，包括对大模型核心能力的依赖、效率和成本问题、执行链路的复杂性等。尽管存在局限性，AI Agent作为通往通用人工智能（AGI）的重要探索方向，其发展预示着未来人工智能技

2024-05-11

总结了一系列的agent大模型论文

AI Agent大模型是基于大型语言模型（Large Language Models，LLMs）构建的智能体，它们能够执行复杂的任务，并且具备与环境交互、主动决策和执行任务的能力。以下是一些值得关注的AI Agent大模型及其特点： 1. **AutoGPT**：一个开源项目，能够通过API创建完整的项目，自主完成任务。 2. **AgentGPT**：允许用户配置和部署自主AI智能体，为自定义AI命名并设定目标以实现。 3. **Baby AGI**：一个人工智能驱动的任务管理系统，使用OpenAI和Pinecone API来创建、确定优先级和执行任务。 4. **Jarvis (HuggingGPT)**：由Microsoft开发，使用多个AI模型来完成给定任务，以ChatGPT作为任务控制者。 5. **Aiagent.app**：一个Web应用，允许用户创建自定义AI智能体以执行特定任务并实现目标。

2024-05-11

使用python语言编程，使用matplotlib做可视化，將排序算法用图像的方式展现出来排序过程

Matplotlib 是一个 Python 的绘图库，它提供了一个类似于 MATLAB 的绘图框架，并且对用户非常友好。它能够生成多种格式的图形，包括交互式的图形和动画，以及用于打印的高质量图形。Matplotlib 广泛应用于数据可视化领域，是 Python 数据分析和科学计算中不可或缺的一部分。以下是 Matplotlib 的一些主要特点：多格式输出：支持多种输出格式，包括 PNG、JPEG、SVG、PDF、EPS 等。多种图形类型：可以生成线图、散点图、柱状图、3D 图形、直方图、功率谱图、错误条形图、散点图矩阵、等高线图等多种图形。自定义性强：提供了丰富的 API，允许用户对图形的各个方面进行自定义，如颜色、线型、标记样式、坐标轴刻度、图例、标题等。交互式功能：通过集成如 PyQt 或者 IPython 等工具，Matplotlib 可以生成交互式的图形。动画支持：Matplotlib 的动画模块允许用户创建帧动画，显示数据随时间的变化。跨平台：可在多种操作系统上运行，包括 Windows、macOS 和 Linux。

2024-05-08

python语言学习-python编程100练，在代码中实际进行练习

Python 是一种高级的、解释型的编程语言，它以其简洁明了的语法和强大的标准库而闻名。Python 由 Guido van Rossum 创建，并在 1991 年首次发布。以下是 Python 语言的一些主要特点： 1. **易于学习和使用**：Python 的设计哲学强调代码的可读性和简洁性。它支持多种编程范式，包括面向对象、命令式、函数式和过程式编程。 2. **可移植性**：Python 是一种跨平台的语言，可以在许多操作系统上运行，包括但不限于 Windows、macOS、Linux 等。 3. **强大的标准库**：Python 的标准库非常广泛，提供了许多用于处理文件、系统调用、网络通信、文本处理等的模块。 4. **开源**：Python 是一个开源项目，拥有活跃的社区，这意味着它不断地得到改进，并且有许多第三方库可供使用。 5. **自动内存管理**：Python 有自动内存管理和垃圾回收功能，这使得内存管理更加方便。 6. **多用途**：Python 可用于各种应用开发，从简单的脚本到复杂的应用程序，如网站、游戏、桌面应用、科学计算和数据分析等。

2024-04-30

适合初学者学习的优秀项目：c/c++/python/java等等

入门编程语言的学习项目对于初学者来说非常重要，它们可以为学习者提供必要的基础和实践机会，帮助他们更好地理解编程概念和提高编程技能。以下是一些入门学习项目对于编程学习的重要性： 1. **理论与实践相结合**：学习项目可以帮助初学者将理论知识应用到实际问题中，加深对编程概念的理解。 2. **培养解决问题的能力**：通过解决实际问题，学习者可以培养分析问题和解决问题的能力，这是编程中的核心技能。 3. **提高编程技能**：完成项目需要编写、测试和调试代码，这些过程可以提高学习者的编程技能和代码质量。 4. **增强学习动力**：完成一个项目可以给学习者带来成就感，从而增强他们继续学习的动力。 5. **理解编程语言的特性**：通过项目实践，学习者可以更深入地了解所学编程语言的特性和最佳实践。

2024-04-30

elasticsearch查询模版-模糊查询，多字段查询，相似度计算等

Elasticsearch（简称ES）是一个基于Apache Lucene构建的开源、分布式、RESTful风格的搜索和数据分析引擎。它允许你以前所未有的速度和规模，即时地存储、搜索和分析大量数据。Elasticsearch通常用于全文搜索、结构化搜索、分析以及将这三者结合起来的复杂搜索需求。以下是关于Elasticsearch的一些关键特点和概念： 1. **分布式和高可用性**：Elasticsearch自动将数据分片并在集群中的多个节点之间分布这些分片。它可以在节点失败时自动复制和重新分配数据，以保持服务的可用性。 2. **实时搜索**：Elasticsearch能够在文档被索引后几秒内提供近乎实时的搜索。 3. **多样的搜索能力**：Elasticsearch支持多种类型的搜索，包括结构化、非结构化、地理位置、指标聚合等。 4. **水平可扩展性**：随着数据量的增加，您可以简单地增加更多的节点，Elasticsearch会自动平衡集群的负载。 5. **易于集成**：Elasticsearch提供了丰富的RESTful API，可以轻松地与各种编程语言进行集

2024-04-29

神经网络与深度学习课件和pdf文件

神经网络（Neural Networks）和深度学习（Deep Learning）是机器学习领域中的重要概念，它们之间存在密切的联系。下面是对这两个概念的基本介绍： ### 神经网络 1. **定义**：神经网络是受人脑结构启发的计算模型，它通过模仿人脑神经元的连接和交互来处理信息。 2. **组成**：一个神经网络由多个层组成，包括输入层、隐藏层和输出层。每一层由多个神经元组成，神经元之间通过权重连接。 3. **工作原理**：数据在网络中前向传播，通过每一层的加权和、激活函数转换，最终在输出层产生预测结果。 4. **学习过程**：通过反向传播算法（Backpropagation）调整权重，以最小化预测误差，这个过程通常需要大量的数据和计算资源。 ### 深度学习 1. **定义**：深度学习是机器学习的一个子领域，特指使用深层神经网络（具有多个隐藏层的神经网络）的算法。 2. **特点**：深度学习模型能够学习数据中的复杂模式，并且通常在图像和语音识别、自然语言处理等任务中表现出色。 3. **关键技术**：包括非线性激活函数、梯度下降优化算法、正则化技术等。

2024-04-29

python世界银行公开数据下载爬虫

世界银行（The World Bank）是世界银行集团的简称，也常被称为国际复兴开发银行（International Bank for Reconstruction and Development, IBRD），是联合国系统下的多边开发机构之一。世界银行的主要目标是为发展中国家提供长期贷款和技术支持，以促进它们的经济发展和社会进步。世界银行集团包括五个机构：国际复兴开发银行（IBRD）、国际开发协会（International Development Association, IDA）、国际金融公司（International Finance Corporation, IFC）、多边投资担保机构（Multilateral Investment Guarantee Agency, MIGA）和国际投资争端解决中心（International Centre for Settlement of Investment Disputes, ICSID）。

2024-04-29

设计模式python模版

设计模式是在软件工程中解决常见问题的通用、可重用的解决方案。它们是在多年的软件开发实践中逐渐被发现、抽象化和总结出来的。设计模式可以帮助程序员以优雅、高效的方式解决软件开发中的问题，提高代码的可读性、可维护性和可扩展性。设计模式主要分为三大类：创建型模式（Creational Patterns）：这类模式关注对象的创建过程，主要有以下几种：单例模式（Singleton）：确保一个类只有一个实例，并提供一个全局访问点。工厂方法模式（Factory Method）：定义一个接口用于创建对象，但让子类决定实例化哪个类。抽象工厂模式（Abstract Factory）：创建一系列相关或相互依赖对象的接口，而无需指定它们的具体类。建造者模式（Builder）：将一个复杂对象的构建与其表示分离，使得同样的构建过程可以创建不同的表示。原型模式（Prototype）：通过复制现有的实例来创建新的实例，而不是通过构造函数。结构型模式（Structural Patterns）：这类模式关注类和对象的结构，主要有以下几种：适配器模式（Adapter）：允许将一个类的接口转换成客户期望

2024-04-29

强化学习经典课程-斯坦福大学cs234课件

CS234是斯坦福大学开设的一门关于强化学习的课程，全称为“Reinforcement Learning”。这门课程由著名学者Emma Brunskill和Chelsea Finn共同授课，旨在为学生提供强化学习的基础知识、核心算法以及最新进展。 CS234课程涵盖了强化学习的基础理论，包括马尔可夫决策过程（MDP）、动态规划、蒙特卡洛方法、时序差分学习、同轨策略和离轨策略等。此外，课程还会介绍一些高级主题，如函数近似、梯度策略方法、探索与利用的平衡、稳定性和收敛性等。课程结构通常包括讲座、作业、项目等部分。作业和项目旨在让学生通过实践来加深对强化学习理论和方法的理解。CS234课程适合对强化学习感兴趣的研究生和高级本科生，要求学生具备一定的机器学习基础和编程能力。 CS234课程在强化学习领域享有很高的声誉，它的教学大纲、讲义、作业和项目等资源通常会在课程网站上公开，供全球的学习者免费学习。通过这门课程，学生能够掌握强化学习的基本原理，学会如何设计、分析和实现强化学习算法，并为进一步的研究或应用强化学习打下坚实的基础。

2024-04-28

斯坦福cs223-数据结构课件

数据结构是计算机科学中的一个重要概念，它指的是计算机中存储、组织数据的方式。良好的数据结构可以有效地支持数据的插入、删除、搜索和排序等操作。数据结构通常与算法一起讨论，因为它们紧密相关——算法可以看作是对数据结构进行操作的方法。常见的数据结构包括： 1. **数组（Array）**：一种基础的数据结构，用于存储一系列有序的元素。数组的特点是元素可以通过索引快速访问。 2. **链表（Linked List）**：由一系列节点组成，每个节点包含数据和一个或多个指向其他节点的引用（链接）。 3. **栈（Stack）**：遵循后进先出（LIFO）原则的数据结构。栈支持两种主要操作：push（压栈）和pop（出栈）。 4. **队列（Queue）**：遵循先进先出（FIFO）原则的数据结构。队列支持两种主要操作：enqueue（入队）和dequeue（出队）。 5. **树（Tree）**：一种分层数据结构，用于模拟具有层次关系的数据。常见的树结构包括二叉树、平衡树（如AVL树）、红黑树等。 6. **图（Graph）**：用于表示物件之间的多对多关系。图由节点（或顶点）和边组成，边可以是

2024-04-28

### SmolDocling：一种超紧凑的视觉语言模型，用于端到端多模态文档转换摘要本文

内容概要：本文介绍了SmolDocling，这是一种专为端到端多模态文档转换设计的超紧凑视觉语言模型。SmolDocling基于Hugging Face的SmolVLM-256M架构，参数量仅为2.56亿，却能在多种文档转换任务上与参数量多达27倍于它的大型模型竞争。它通过生成DocTags，一种新的通用标记格式，捕捉页面元素的全部内容及其位置，从而实现对文档内容、结构和空间位置的精确转换。SmolDocling不仅支持从复杂文档中提取表格、图表、公式、代码等多种元素，还提供了一个全新的公开数据集系列，涵盖了代码、公式、图表等多个领域的识别任务。实验结果显示，SmolDocling在文本识别、布局分析和结构提取等任务上表现出色，特别是在代码解析和公式识别方面超越了现有模型。适合人群：从事文档处理、计算机视觉、自然语言处理等领域研究和技术开发的专业人士，尤其是关注高效、紧凑模型应用的研究者和工程师。使用场景及目标：①适用于需要将PDF等复杂文档转换为结构化、机器可处理格式的应用场景；②能够处理多样化的文档类型，如商业文件、学术论文、技术报告、专利和表单等；③支持对文档中的关键元素（如代码、公式、图表）进行高精度提取和转换；④旨在降低大规模模型的计算成本，提高转换效率和准确性。其他说明：SmolDocling引入了DocTags格式，优化了文档内容和布局特性的表示方式，使得模型不仅能捕捉文本内容，还能保留元素的位置信息。此外，SmolDocling还通过自定义的训练数据集和方法，显著提升了对文档中复杂元素的理解能力。尽管SmolDocling在某些情况下可能会出现标签缺失或结构错误等问题，但其整体性能优于现有的同类模型，尤其在处理特定任务时表现尤为突出。

2025-05-30

### Dolphin：字节跳动最新开源文档解析模型

内容概要：Dolphin是由字节跳动开发的一种新型文档图像解析模型，旨在解决文档图像解析中复杂交织元素（如文本段落、图表、公式和表格）带来的挑战。现有方法要么组装多个专家模型，要么直接自回归生成页面级内容，但这些方法存在集成开销大、效率瓶颈和布局结构降质等问题。Dolphin采用“先分析后解析”的范式，将文档解析分为两个阶段：第一阶段进行页面级布局分析，生成自然阅读顺序的布局元素序列；第二阶段利用这些布局元素作为锚点，通过异构提示并行解析内容。为了训练Dolphin，研究团队构建了一个包含超过3000万样本的大规模数据集，涵盖多粒度解析任务。实验表明，Dolphin在多种基准测试中均表现出色，特别是在处理复杂文档时具有显著优势，同时保持了高效的运行速度。适合人群：对文档图像解析技术感兴趣的科研人员、工程师以及相关领域的研究人员。使用场景及目标：①需要高效解析复杂文档（含图表、公式、表格等）的研究或开发项目；②希望提升文档解析效率和准确性的企业和机构；③研究和开发新一代文档解析工具的技术团队。阅读建议：由于Dolphin涉及复杂的视觉语言模型架构和训练细节，建议读者首先了解基本的机器学习和深度学习概念，尤其是视觉和语言模型的基础知识。此外，关注文档解析的实际应用场景和技术挑战，有助于更好地理解Dolphin的设计思路及其优势。

2025-05-30

【自然语言处理】基于RAPTOR的递归抽象处理树状组织检索：提升长文档问答系统的准确性和效率

内容概要：本文介绍了召回增强生成（RAG）及其最新进展——递归抽象处理树状组织检索（RAPTOR）。RAG通过结合信息检索系统和生成式大型语言模型（LLM），提高了LLM的回答准确性和可靠性。RAPTOR作为一种新型RAG方法，通过构建文档的递归树状结构，解决了传统RAG在处理长文档和复杂信息检索中的局限性。RAPTOR的构建过程包括预处理、嵌入、递归处理等步骤，最终形成一个多层的树状结构，支持高效且上下文感知的检索。RAPTOR在问答任务中表现出色，尤其擅长处理需要多层次理解的复杂查询。与传统检索方法相比，RAPTOR在处理长文档和复杂查询时具有明显优势。适合人群：具备一定算法基础，尤其是对自然语言处理和信息检索感兴趣的算法工程师和研究人员。使用场景及目标：①处理长篇且上下文丰富的文档，提供更精准和上下文感知的检索结果；②应对需要多层次理解的复杂查询，如整合多章节信息的问答；③在研究、法律分析、财务报告等领域中，辅助处理大量复杂文本数据，提高信息检索的准确性和效率。其他说明：RAPTOR通过构建层次化的树状结构，实现了对长文档的高效处理和多层次信息的理解。相比于传统的检索方法，RAPTOR不仅提高了检索的准确性，还在多个问答任务中展现了优越的性能。未来的研究方向可能包括优化更大规模数据集的树构建过程，探索更复杂的摘要和聚类技术，进一步提升系统的性能和可扩展性。

2025-05-15

医学领域结肠镜检查对肠道菌群影响及术后肠道环境恢复策略综述

内容概要：本文详细探讨了结肠镜检查对肠道菌群的影响及其恢复策略。结肠镜检查是诊断和预防结直肠疾病的重要手段，但其肠道准备过程会对肠道菌群产生显著影响，包括短期内菌群多样性和组成的改变，如有益菌（如厚壁菌门、拟杆菌门）减少，潜在有害菌（如变形菌门）增加。这些变化可能引发术后不适，如腹胀、腹痛等。大多数健康个体的肠道菌群可在2-4周内恢复，但某些变化可能持续更长时间。文章还介绍了恢复肠道环境的具体策略，包括逐步恢复饮食、补充益生菌和益生元，以及长期维护肠道健康的建议。适合人群：计划进行或已进行结肠镜检查的患者，以及关注肠道健康的普通人群。使用场景及目标：①了解结肠镜检查对肠道菌群的具体影响，为术前准备和术后恢复提供科学依据；②掌握术后饮食调整和补充益生菌的方法，以缓解不适并促进菌群恢复；③学习长期维护肠道健康的策略，确保整体健康。其他说明：本文基于多项研究，提供了详细的证据支持，并强调个性化恢复方案的重要性。用户应根据自身情况和医生建议，采取合适的恢复措施。

2025-05-14

【人工智能领域】模型上下文协议(MCP)详解：面向大模型应用开发工程师的标准化集成方案模型上下文协议

内容概要：模型上下文协议（MCP）是由Anthropic于2024年底推出的一种开放标准，旨在标准化大型语言模型（LLM）与外部数据源、工具和系统的连接。MCP采用客户端-服务器架构，包含宿主、客户端、服务器、工具、资源、提示、采样、根、传输等关键组件，使用JSON-RPC 2.0作为消息传递格式。MCP解决了传统API集成的复杂性和碎片化问题，简化了LLM与外部系统的集成。MCP的发展历程包括2024年11月的开源发布，随后OpenAI和Google DeepMind等公司相继支持。MCP生态系统迅速扩展，涵盖了Google Drive、Slack、GitHub等多个平台，并引入了FastMCP、Haystack等支持工具。MCP在大模型应用开发中的用例包括增强LLM的上下文理解、与知识库集成、自动化工作流程等。MCP强调安全性，设计为“本地优先”，并通过OAuth 2.1进行身份验证和授权。未来，MCP将继续扩展其功能，支持更多模态和流式传输。适合人群：具备一定编程基础，特别是熟悉大模型应用开发的工程师和技术人员。使用场景及目标：①简化LLM与外部数据源和工具的集成，解决传统API集成的复杂性；②构建能够访问实时数据、自动化工作流程、与知识库集成的智能应用；③提高LLM的上下文理解和响应准确性；④确保数据访问的安全性和用户控制。其他说明：MCP不仅提供了一种标准化的集成方式，还为开发人员提供了丰富的工具和库，如FastMCP和Haystack集成，简化了开发流程。随着主要AI平台的积极采纳，MCP有望成为未来AI应用开发的关键组成部分。开发人员应关注MCP的持续更新和增强，以充分利用其功能和优势。

2025-05-08

python【PDF 处理技术】PDFPlumber与PyMuPDF提取性能及功能对比分析：文本、表格和图像提取的最佳实践选择

内容概要：本文详细比较了PDFPlumber和PyMuPDF两个Python库在处理PDF文件内容提取时的优势和适用场景。PDFPlumber专注于从PDF文档中提取结构化数据，尤其是表格，依赖于pdfminer.six，擅长处理机器生成的PDF文件，提供用户友好的API、强大的表格提取功能、与Pandas的良好集成以及可视化调试工具。PyMuPDF则以其高性能和广泛的功能集而闻名，支持多种文档格式，具备卓越的文本提取速度、全面的功能集（包括OCR支持、高级PDF操作等），并且适用于处理大型文档和复杂布局。适合人群：具备一定编程基础，熟悉Python语言的研发人员，尤其是需要处理PDF文件内容提取任务的用户。使用场景及目标：①需要精确提取复杂表格数据、处理机器生成的PDF文件，以及希望开发过程更加直观的用户可以选择PDFPlumber；②需要高速处理大量PDF文档、处理多种文档格式、进行OCR或执行高级PDF操作的用户则更适合使用PyMuPDF。其他说明：PDFPlumber和PyMuPDF各有侧重，选择哪个库取决于项目的具体需求和优先级。如果主要任务是准确地从复杂布局中提取表格，并且希望开发过程更加直观，那么PDFPlumber可能更适合。如果应用需要高速处理大量PDF文档，或者需要处理多种文档格式、进行OCR或执行高级PDF操作，那么PyMuPDF将是更强大的选择。开发者应根据其特定的使用场景和技术栈来权衡这两个库的优势，选择最合适的工具来完成PDF内容提取的任务。

2025-05-08

docker学习资料， docker-practice.pdf

1. 开发环境搭建快速搭建开发环境：使用 Docker 可以快速搭建开发所需的环境，如数据库服务器、Web 服务器等，而无需在主机上安装和配置这些服务。这可以节省时间，并且可以确保开发环境的一致性。多版本环境管理：在开发过程中，可能需要使用不同版本的软件或语言运行时。Docker 可以轻松地在不同的版本之间切换，而不会相互干扰。 2. 持续集成与持续部署（CI/CD）自动化测试：将测试环境容器化，可以确保测试环境的一致性，避免“在我机器上可以运行”的问题。在 CI/CD 流程中，可以使用 Docker 在不同的阶段快速创建和销毁测试环境。快速部署：将应用程序及其依赖打包成容器镜像，可以在不同的服务器或环境中快速部署，确保部署的一致性和可靠性。 3. 微服务架构服务隔离：每个微服务可以运行在独立的容器中，实现了服务之间的隔离，避免了相互依赖和冲突。独立扩展根据：需要独立地扩展或升级每个微服务，而不会影响其他服务。 4. 容器编排使用 Docker Compose 可以定义和管理多容器应用，简化了复杂应用的部署和管理。使用 Kubernetes 等容器编排工具，可以实现容器的大规模编排、自动扩展、负载均衡等功能，适用于大规模的生产环境。 5. 软件分发与交付镜像分发：将应用程序打包成 Docker 镜像，可以方便地在不同的环境中进行分发和交付，确保应用程序的一致性和可移植性。快速迁移：由于容器的可移植性，可以快速地将应用从一个服务器迁移到另一个服务器，或者从本地环境迁移到云环境。

2025-05-06

OpenAI开源34页Agents最佳实践白皮书

2025 年 4 月 4 日，OpenAI 开源了一份 34 页的《Agents 最佳实践》白皮书，以下是对该白皮书的简单介绍： ### 核心观点 * 明确了代理人工智能系统的定义，并强调其在生命周期中的各方职责，提出了一套确保代理人工智能系统安全性和可问责性的初步实践方法，以促进其负责任地融入社会。 ### 主要内容 * **定义与概念** ：对代理人工智能系统进行了界定，并阐述了其在生命周期中的人类主体，如系统部署者、用户等，以及各方在不同情境下的责任分配问题。 * **潜在益处** ：探讨了代理性作为一种有用属性和影响倍增因素，能帮助人们更高效、有效地实现目标，如在复杂决策场景中辅助人类进行信息处理和决策支持等。 * **安全与问责实践** ：提出了七种实践方法，包括评估任务适用性、限制行动空间与要求审批、设置默认行为等，并强调了在实施这些实践时可能面临的困难和需要权衡的因素，如安全性、可用性、隐私和成本之间的矛盾。 * **间接影响** ：分析了代理人工智能系统广泛应用可能带来的间接影响，如对就业结构、社会公平等方面的影响，以及可能需要额外的治理框架来应对这些影响。 ### 重点细节 * **评估任务适用性** ：在部署代理前需明确任务要求，确保代理适合执行任务，对于不适合代理执行的任务，应限制其使用，如涉及人类情感关怀的任务更适宜由人类完成。 * **约束行动空间与要求审批** ：限制代理可执行的操作，并建立审批流程，特别是对于高风险操作，如财务交易、法律文件签署等，需经授权人员审批后才能执行。 * **设置默认行为** ：定义代理的默认行为，如在不确定情况下停止执行并寻求帮助，对于高风险任务，默认采取最安全、保守的行动等。

2025-04-18

OpenAI 智能体学习资源

2025 年 4 月 4 日，OpenAI 开源了一份 34 页的《Agents 最佳实践》白皮书。白皮书明确了代理人工智能系统的定义，强调其在生命周期中的各方职责，并提出了一套确保代理人工智能系统安全性和可问责性的初步实践方法，以促进其负责任地融入社会。白皮书探讨了代理人工智能系统的潜在益处，如在复杂决策场景中辅助人类进行信息处理和决策支持等。还提出了七种实践方法，包括评估任务适用性、限制行动空间与要求审批、设置默认行为等。同时分析了代理人工智能系统广泛应用可能带来的间接影响，如对就业结构、社会公平等方面的影响。在实施这些实践时，还强调了可能面临的困难和需要权衡的因素，如安全性、可用性、隐私和成本之间的矛盾。

2025-04-18

deepseek核心技术：moe（混合专家模型）相关论文

MOE（Mixture of Experts）混合专家模型是一种集成学习方法，通过组合多个“专家”模型（子模型）来处理复杂任务。每个专家模型专注于数据的不同部分，由门控网络（Gating Network）决定各专家的权重，最终输出为各专家输出的加权组合。MOE的核心思想是“分而治之”，通过动态选择最合适的专家提升模型性能。 MOE的优势在于其灵活性和可扩展性，能够处理高维、非线性数据，广泛应用于分类、回归、自然语言处理等领域。其训练通常采用EM算法或梯度下降法，同时优化专家模型和门控网络。总之，MOE通过组合多个专家模型，能够有效提升复杂任务的性能，是一种强大的机器学习工具。

2025-02-10

deepseek最新学习文档-从入门到精通系列

DeepSeek 是一款多功能AI智能平台，致力于通过先进的人工智能技术提升用户在工作、学习与创作中的效率。其核心功能覆盖对话交互、文档分析、代码开发、知识管理及自动化流程设计，支持多场景应用，如学术研究、自媒体运营、技术开发与个人学习规划。用户可通过自然语言指令实现复杂任务，例如上传文档快速提取核心要点、生成带注释的代码脚本、定制雅思备考计划，或自动生成结构化日报。平台突出优势在于精准的指令响应与场景化解决方案。内置的“魔法指令”（如`/续写`、`/简化`）可快速优化输出内容，而私人知识库功能支持用户构建个性化数据库（如法律判例库、医疗手册），并通过关键词触发智能调用。此外，DeepSeek提供跨语言专业翻译模式，适配商务谈判与学术润色需求，严格遵循行业术语与文化差异，例如将中文合同条款转换为符合ICC标准的英文表述。

2025-02-10

axiv论文OCR识别训练集

OCR（Optical Character Recognition，光学字符识别）是指通过扫描和摄影等光学输入方式将各种票据、文档、书籍等印刷体文字转化为电子文本的技术。OCR任务的介绍如下：任务背景：随着信息化时代的到来，大量的纸质文档需要转化为电子文档进行存储、检索和共享。OCR技术应运而生，它可以将纸质文档中的文字信息快速、准确地转化为电子文本，提高办公效率，降低人工成本。任务目标： OCR任务的主要目标是实现以下功能：（1）文字识别：将图像中的文字区域提取出来，并识别出相应的文字。（2）版面分析：对文档进行版面分析，划分出标题、正文、表格、图片等区域。（3）格式还原：将识别出的文字按照原始文档的格式进行排版，尽可能保持原文档的布局。（4）输出结果：将识别结果以文本、PDF或其他格式进行输出，方便用户使用。任务流程： OCR任务的一般流程如下：（1）图像预处理：对输入的图像进行去噪、二值化、倾斜校正等处理，提高文字识别的准确性。（2）版面分析：对预处理后的图像进行版面分析，划分出不同的区域。（3）文字识别：对划分出的文字区域进行识别，输出识别结果。

2025-01-13

俄罗斯方块-C语言实现

俄罗斯方块（Tetris）是一款经典的电子游戏，由苏联程序员阿列克谢·帕基特诺夫于1984年开发。游戏的目标是通过旋转和移动不同形状的方块，使它们在游戏区域内形成完整的横行，这样这些行就会消失，玩家得分。随着游戏的进行，方块下落的速度会逐渐加快，游戏难度也会相应增加。俄罗斯方块因其简单易学但难以精通的游戏机制而广受欢迎，成为了全球性的文化现象。它不仅是最畅销的电子游戏之一，还对电子游戏行业和现代流行文化产生了深远的影响。此外，俄罗斯方块也被认为有助于提高玩家的空间认知能力和反应速度。

2025-01-13

图算法- 社区发现算法： Louvain和 leiden算法论文

### Louvain 算法 Louvain 算法是一种基于模块度优化的社区发现算法，用于在复杂网络中识别紧密连接的子群（社区）。其核心思想是通过迭代优化模块度来划分社区。模块度衡量了社区内部连接的紧密程度与随机网络的差异。算法分为两个阶段： 1. 局部移动：将每个节点移动到相邻社区，以最大化模块度增益。 2. 网络聚合：将社区合并为超级节点，构建新的网络，重复上述过程直到模块度不再提升。优点： - 高效，适合大规模网络。 - 实现简单，易于理解。缺点： - 可能生成不连通的社区。 - 对初始条件敏感，结果可能不稳定。 ### Leiden 算法 Leiden 算法是对 Louvain 算法的改进，解决了 Louvain 算法生成不连通社区的问题，并提高了效率和质量。Leiden 算法同样基于模块度优化，但引入了以下改进： 1. 快速局部移动：通过更高效的节点移动策略，减少计算时间。 2. 分区细化：确保每个社区内部是连通的。 3. 层次化聚合：支持多层次社区划分，生成更优点：保证社区连通性。运行速度更快，结果更稳定。支持层次化社区划分

2025-01-13

当前中文手写体识别任务准确前三开源模型-DTrOCR 原论文

中文手写体识别任务是指利用计算机技术，对用户手写的中文文字进行准确识别，并将其转换为可编辑、可搜索的电子文本。这一技术广泛应用于多种场景，如移动端的输入法、历史文献的数字化、教育领域的试卷批改、办公自动化等领域。目前存在诸多难点：文字多样性：中文拥有成千上万的字符，包括常用汉字、罕见字、异体字等。书写风格差异：不同的人有不同的书写习惯和风格，即使是同一个人，在不同的时间和状态下书写出的文字也可能有较大差异。上下文关联：中文书写中，上下文对于某些字的识别具有决定性作用，因为不同的上下文环境可能导致相同的笔画有不同的意义。难点分析字体多样性：中文手写体相较于印刷体，个体差异更大，同一个字可以有多种不同的书写方式。笔迹复杂性：手写体中存在连笔、草书等书写方式，使得笔迹复杂，增加了识别难度。噪声干扰：手写文本可能存在墨迹浓淡、纸张质地、书写工具等因素带来的噪声干扰。字符切割：手写文本中字符之间的间隔可能不明显，字符切割是识别过程中的一个难题。相似字符区分：中文中存在大量形似或结构相近的字符，如何准确区分这些相似字符是识别系统需要解决的关键问题。

2024-11-20

fastText是一个用于高效学习词表示和句子分类的库

FastText是由Facebook人工智能研究团队开发的一个开源库，主要用于文本分类和词向量学习。以下是FastText的详细介绍：核心特点：高效性：FastText在文本分类任务上具有很高的处理速度，能够处理海量数据。简单易用：FastText的API设计简洁，易于集成和使用。多语言支持：FastText支持多种语言，可以处理不同语言的文本数据。主要功能：词向量学习：FastText可以学习单词和句子的高维向量表示，这些向量能够捕捉词汇的语义信息。文本分类：FastText提供了一种高效的文本分类方法，通过学习文本的向量表示来进行分类。技术原理：层次化 Softmax：为了解决传统Softmax在处理大规模词汇表时的计算瓶颈问题，FastText采用了层次化Softmax，将词汇表组织成一个哈夫曼树，从而大大减少了计算量。 N-gram特征：FastText不仅考虑单词本身，还考虑单词的N-gram特征，这有助于捕捉单词的顺序信息，提高分类准确性。

2024-11-20

资源中主要包括一些开源的langchain和 llama index 框架的学习资料以及相关资源

LlamaIndex支持多种索引结构，包括列表索引、树形索引、图索引等，满足不同场景下的数据管理需求。它能够灵活地集成结构化数据和非结构化数据，如文档、数据库、API返回的数据等。此外，LlamaIndex还提供了基于上下文的增强型检索策略，使得LLM在回答用户问题时能够提供更相关、更精确的答案 LlamaIndex的前身为GPT Index，是一种用于LLM应用程序摄取、结构化和访问私有或领域特定数据的数据框架。它提供数据连接器，从其原生来源或格式中摄取现有的数据，这些可以是API、PDF、SQL以及其他格式。LlamaIndex还提供数据索引，对数据进行结构化处理，生成对LLMs易于使用和高效的中间表示形式。相比之下，LangChain是一个大模型应用框架，与LlamaIndex类似，但LlamaIndex更专注于数据处理。LangChain提供了一系列工具和接口，用于构建和运行基于大型语言模型的应用程序。总的来说，LlamaIndex是一个强大的工具，用于优化LLM在处理大规模数据集时的效率和智能，而LangChain则是一个更广泛的应用框架，旨在简化LLM应用的开发和部署。

2024-11-18

BGE系列模型原论文，rag中的rerank模型

BGE模型，全称为BAAI General Embedding模型，是由北京智源研究院研发的一系列通用语义向量模型。自2023年8月发布以来，BGE模型家族已经推出了多个版本，包括BGE v1.0、v1.5和多语言模型BGE-M3。这些模型在语义理解和跨语言映射方面取得了显著进展，为自然语言处理领域带来了新的突破。 BGE模型的特点包括：多语言性（Multi-Linguality）：BGE模型支持超过100种语言，能够处理不同语言之间的语义匹配任务，建立有效的跨语言语义联系。多功能性（Multi-Functionality）：BGE模型集成了稠密检索、稀疏检索、多向量检索等检索功能，可以一站式服务不同的语义检索场景。多粒度性（Multi-Granularity）：BGE模型可以处理不同粒度的输入文本，包括句子、段落、篇章和文档，最大输入长度可达8192 。

2024-07-11

高效进行数据科学工作的python库和一些trick

Python在数据处理方面有许多技巧（tricks），可以帮助提高效率和简化任务。以下是一些常用的Python数据处理技巧：使用Pandas的read_*函数：Pandas库提供了多种读取数据的功能，如read_csv(), read_excel(), read_sql()等，可以快速加载不同格式的数据。数据清洗：使用Pandas的dropna(), fillna(), replace()等函数来处理缺失值和异常值。数据类型转换：使用Pandas的astype()函数来转换数据列的数据类型。条件筛选：使用布尔索引进行条件筛选，例如：df[df['column_name'] > value]。数据分组：使用groupby()函数对数据进行分组，并使用聚合函数如sum(), mean(), count()等进行分析。数据合并：使用merge()或concat()函数来合并多个数据集。数据重塑：使用pivot_table(), melt(), stack(), unstack()等函数来重塑数据。时间序列处理：使用Pandas的to_datetime()函数

2024-06-25

知识图谱发展史及关键技术

知识图谱是一种结构化的语义知识库，它通过将复杂的知识进行可视化和结构化的方式组织，使得计算机能够更好地理解和处理人类知识。知识图谱通常包含实体（Entity）、关系（Relationship）和属性（Attribute）三个基本组成部分，它们共同构成了知识图谱的核心。以下是知识图谱的一些关键特点：实体：知识图谱中的实体通常代表现实世界中的一个具体对象或概念，如人、地点、组织、事件等。关系：关系定义了实体之间的语义联系，例如“属于”、“位于”、“创立者是”等。属性：属性是对实体特征的描述，如人的年龄、地点的经纬度、组织的成立时间等。图结构：知识图谱采用图的形式组织数据，其中节点代表实体，边代表关系。多源融合：知识图谱的数据可以来自多个不同的信息源，包括结构化数据、半结构化数据和非结构化数据。语义丰富：知识图谱通过丰富的实体和关系类型，提供比传统数据库更丰富的语义信息。动态更新：知识图谱可以根据新的数据和信息不断更新和扩展，保持知识的最新状态。智能应用：知识图谱可以支持多种智能应用，如搜索引擎、推荐系统、问答系统、自然语言处理等。知识推理

2024-06-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

c++ primer 第六版pdf+代码实现

远程ssh连接工具MobaXterm，完全免费，可以拖动传输文件，及教程汇总

Visual Basic 语言学习资料

利用python进行科学计算工具指南

numpy-pandas-matplotlib使用指南，都是一些实例，且全部是jupyter文件，方便运行查看效果

这个文档介绍了，如何在arm架构的系统机器上面安装python环境， 我们首先安装miniconda，方便管理python的多版

fastgestures安装包，模拟mac的触控板收拾，两指代表右击， 三指拖拽

chatgpt4的免费api，还支持以下模型：gpt-4-all,gpt-3.5-turbo,gpt-3.5-turbo-16k

python少儿编程课程代码实现-地址：https://kidscancode.org/lessons/

近期的一些agent大模型产品，包括官方服务的页面

总结了一系列的agent大模型论文

使用python语言编程， 使用matplotlib做可视化，將排序算法用图像的方式展现出来排序过程

python语言学习-python编程100练，在代码中实际进行练习

适合初学者学习的优秀项目：c/c++/python/java等等

elasticsearch查询模版-模糊查询，多字段查询，相似度计算等

神经网络与深度学习课件和pdf文件

python世界银行公开数据下载爬虫

设计模式python模版

强化学习经典课程-斯坦福大学cs234课件

斯坦福cs223-数据结构课件

### SmolDocling：一种超紧凑的视觉语言模型，用于端到端多模态文档转换摘要 本文

### Dolphin：字节跳动最新开源文档解析模型

【自然语言处理】基于RAPTOR的递归抽象处理树状组织检索：提升长文档问答系统的准确性和效率

医学领域结肠镜检查对肠道菌群影响及术后肠道环境恢复策略综述

【人工智能领域】模型上下文协议(MCP)详解：面向大模型应用开发工程师的标准化集成方案模型上下文协议

python【PDF 处理技术】PDFPlumber与PyMuPDF提取性能及功能对比分析：文本、表格和图像提取的最佳实践选择

docker学习资料， docker-practice.pdf

OpenAI开源34页Agents最佳实践白皮书

OpenAI 智能体学习资源

deepseek核心技术：moe（混合专家模型）相关论文

deepseek最新学习文档-从入门到精通系列

axiv论文OCR识别训练集

俄罗斯方块-C语言实现

图算法- 社区发现算法： Louvain和 leiden算法论文

当前中文手写体识别任务准确前三开源模型-DTrOCR 原论文

fastText是一个用于高效学习词表示和句子分类的库

资源中主要包括一些开源的langchain和 llama index 框架的学习资料以及相关资源

BGE系列模型原论文，rag中的rerank模型

高效进行数据科学工作的python库和一些trick

知识图谱发展史及关键技术

空空如也

这个文档介绍了，如何在arm架构的系统机器上面安装python环境，我们首先安装miniconda，方便管理python的多版

fastgestures安装包，模拟mac的触控板收拾，两指代表右击，三指拖拽

使用python语言编程，使用matplotlib做可视化，將排序算法用图像的方式展现出来排序过程

### SmolDocling：一种超紧凑的视觉语言模型，用于端到端多模态文档转换摘要本文