海绵波波107-CSDN博客

原创【AI应用开发数据基建】从非结构化数据到结构化知识的通用转化流程

确定数据来源（文档、视频、音频、图片、社交媒体等）：设计可扩展的批量处理机制。

2025-06-12 23:44:02 1824

原创【思考】对“私有化利润，公有化风险”现象的思考

在缺乏制度约束的资本主义游戏中，社会大众永远是最后的接盘侠。要打破这种“大而不倒”的魔咒，需要的不仅是技术性修补，更是对“企业-社会”契约关系的重构——当企业享受规模红利时，必须同步承担对等的社会责任。否则，所谓的“市场规律”不过是特权者收割弱者的遮羞布罢了。房地产有金融属性，对于普通人来说还有哪些也是？房地产因其兼具居住属性和金融属性，成为普通人最熟悉的“投资品”之一。但实际上，许多看似普通的消费或资产，同样具备金融属性——它们可能成为财富增值的工具，也可能成为风险传导的载体。

2025-06-03 00:32:31 1439

原创从零构建知识图谱应用：Neo4j安装、CQL与Python全栈开发实战

name: strpass# 如果你想在响应中包含 Neo4j 内部 ID，可以添加，但不推荐直接暴露title: strpass。

2025-06-02 23:09:11 1412

原创【高并发】Celery + Redis异步任务队列方案提高OCR任务时的并发

线程池在处理OCR任务时仍会阻塞请求，主要原因包括：请求-响应周期未分离、共享进程资源、Python的GIL限制等。这些问题导致高并发请求时线程池满，新请求被阻塞，长任务占用线程，资源竞争加剧。相比之下，Celery+Redis提供了更好的解决方案，通过异步任务队列实现真正的异步解耦，资源隔离，可靠性保障和状态监控。Celery+Redis的优势包括：立即返回任务ID，独立进程处理OCR，任务持久化和自动重试，支持实时查询任务状态。性能对比显示，Celery+Redis在请求响应时间、最大并发处理能力、资源

2025-05-09 18:10:32 1841 1

原创【Flask】ORM模型以及数据库迁移的两种方法（flask-migrate、Alembic）

在Flask中，ORM模型通常是通过SQLAlchemy（最流行的Python ORM工具）或类似的库来定义的。一个ORM模型对应数据库中的一个表。

2025-05-05 20:53:10 1552

原创【JWT+OAuth】Fastapi+Vue中的用户权限管理设计

它是一个装饰器工厂函数，接收一个权限名称作为参数，返回一个 FastAPI 依赖项用于检查当前请求的用户是否拥有指定的权限。

2025-05-03 23:28:51 1426 3

原创 DeepSeek谈《凤凰项目一个IT运维的传奇故事》

这本书的价值不仅在于DevOps技术实践，更在于对组织文化和思维模式的颠覆——正如Erik所言："IT工作的目标不是更努力，而是更聪明。）是Gene Kim、Kevin Behr和George Spafford合著的一部小说，通过虚构的故事生动展现了IT运维中的核心挑战和DevOps文化的变革力量。：小说中濒临失败的IT项目代号，象征传统IT管理方式（冗长流程、部门壁垒）的困境。例如：代码扫描（SAST）、依赖检查（SCA）、运行时防护（RASP）。

2025-04-30 18:54:18 1177

原创 Git从入门到协作：开发者必备的版本控制指南

例如，如果你的本地分支与远程仓库的 `origin/master` 分支关联，执行 `git pull origin master` 会将 `origin/master` 的最新更改合并到你的本地 `master` 分支。当你执行 `git pull` 命令时，Git 会先执行 `fetch` 操作，然后自动将远程分支的最新更改合并到你的当前分支。其中 `<remote-name>` 是你为远程仓库指定的名称（通常为 `origin`），`<remote-url>` 是远程仓库的 URL。

2025-04-24 00:33:40 960

原创 Pytorch实用教程（一）：torch.compile计算提速

开源仓库：TingsongYu/PyTorch-Tutorial-2nd: 《Pytorch实用教程》（第二版）无论是零基础入门，还是CV、NLP、LLM项目应用，或是进阶工程化部署落地，在这里都有。相信在本书的帮助下，读者将能够轻松掌握 PyTorch 的使用，成为一名优秀的深度学习工程师。在线阅读：简介 · PyTorch实用教程（第二版） (tingsongyu.github.io)

2025-04-22 14:10:25 1665

原创【Flask】Explore-Flask：早期 Flask 生态的实用指南

PEP 8 和文档字符串仍是 Python 开发的基石，但可通过工具自动化。

2025-04-21 13:26:11 931

原创【开源项目】Excel手撕AI算法深入理解（四）：注意力机制（Self-Attention、Multi-head Attention）

多头注意力的核心思想是“分而治之”分：通过多组投影并行学习多样化的注意力模式。合：拼接并融合所有头的输出，得到更全面的表示。这种设计让 Transformer 能够同时处理复杂依赖关系（如长距离依赖、多类型关系），成为现代 NLP 的基石。

2025-04-17 20:39:24 1206

原创【开源项目】Excel手撕AI算法深入理解（二）：多层压缩重建（Autoencoder、Multi-Layer Perceptron (MLP)、Residual Network (ResNet)）

Autoencoder 的核心是通过“压缩-重建”学习数据的本质特征。理解其数学原理（如与 PCA 的关系）和变体（如 VAE）是深入应用的关键。

2025-04-16 20:34:44 1068

原创【开源项目】Excel手撕AI算法深入理解（三）：时序（RNN、mamba、Long Short Term Memory (LSTM)、xLSTM）

Selection：赋予模型动态过滤能力，是Mamba的核心创新。：通过时变递归实现自适应记忆。：将连续理论落地为可计算的离散操作。

2025-04-15 23:11:44 1601

原创【开源项目】Excel手撕AI算法深入理解（五）：进阶（Transformer、Transformer-Full-Stack、AlphaFold）

原始论文（《Attention Is All You Need》）中采用modeldff=4×dmodel（如512→2048），这是经验性选择平衡模型容量和计算效率。实验表明，扩展倍数小于4可能导致性能下降，大于4则收益递减。2.3 解码器层（Decoder Layer）比编码器多一个掩码多头注意力（Masked Multi-Head Attention）掩码机制：防止解码时看到未来信息（训练时用三角矩阵掩码）。编码器-解码器注意力：解码器的Q来自上一输出，K/V来自编码器输出。3. 关键数学细节。

2025-04-13 17:21:01 1572

原创【开源项目】Excel手撕AI算法深入理解（一）：基础（ReLU、SoftMax、Temperature）

定义ReLU和LeakyReLUrelu = nn.ReLU() # 默认参数print(relu(x)) # 输出: tensor([0., 0., 2.])print(leaky_relu(x))# 输出: tensor([-0.0100, 0.0000, 2.0000])概率化输出将神经网络的原始输出（可能为任意实数）转换为 0 到 1 之间的概率值，且所有类别的概率之和为 1。

2025-04-13 14:06:09 1105

原创【书籍】DeepSeek谈《持续交付2.0》

持续交付2.0》是乔梁在经典著作《持续交付》基础上的升级版本，它不仅延续了第一版的核心思想，还结合了数字化转型时代的新需求，提出了更系统化的方法论。

2025-04-11 00:21:20 1309

原创【书籍】DeepSeek谈《程序员修炼之道-通向务实的最高境界》

程序员修炼之道》（The Pragmatic Programmer）是一本超越具体技术的开发者思维指南，它教会我们如何以「务实者」而非「码农」的视角看待软件开发。

2025-04-05 16:53:13 1155

原创【大模型】两种工具调用模式：预制工具 vs 动态代码生成

预制工具调用和动态代码生成各有优劣，没有绝对的好坏之分。开发者应根据具体应用场景的安全要求、灵活性需求和开发资源，选择最适合的模式或组合。在大多数企业级应用中，混合模式往往能提供最佳的平衡点。

2025-04-05 15:00:46 1458

原创【Pandasai】理解SmartDataframe 类：对dataframe添加自然语言处理能力

将普通 pandas DataFrame 转换为具有自然语言交互能力的智能 DataFrame通过 chat() 方法允许用户用自然语言查询数据维护数据表的元信息（名称、描述等）提供便捷的属性和方法访问底层 DataFrameAgent 类的主要职责是：接收自然语言查询生成相应的数据处理代码执行生成的代码处理执行结果或错误维护对话上下文和状态。

2025-04-05 12:07:52 1131

原创【书籍】DeepSeek谈《人月神话》

人月神话》是软件工程领域的经典之作，Fred Brooks 以其在 IBM System/360 项目中的深刻经验为基础，提出了许多至今仍被广泛讨论的洞见。

2025-04-05 10:43:27 995

原创【书籍】DeepSeek谈《软件开发的201个原则》

软件开发的201个原则》（201 Principles of Software Development）是一本经典的软件开发指南，浓缩了行业经验和最佳实践。）的实施时机，我的建议是：既不是完全在写代码时立即封装，也不是等项目完成后再处理，而是一个渐进式、有意识的平衡过程。不要过度设计：在首次编写代码时，如果某段逻辑的复用性不明显（例如只被调用1次），可以先实现功能，确保代码正确性。” 前端分层：数据层（Axios）、逻辑层（Composition API）、视图层（模板）分离。

2025-03-29 15:37:27 863

原创【源码阅读/Vue & Flask前后端】简历数据查询功能

一般就是三个层面，model层面用来建立数据库的字段，service用来对model进行操作，写一些数据库操作的代码，route就是具体的功能了，其中会包含一些数据库service层的函数。

2025-03-29 15:09:49 1011

原创【复盘】大批数据清洗前如何进行数据认知

在批量数据处理前先对数据有一些基本的了解，再去动手处理，会提高效率，而且能够避免一些踩坑带来的时间成本。下面说一些数据认知的方法。

2025-03-24 20:28:10 963

原创【工程实践/源码阅读】批量文件处理步骤以及如何并行处理

需要对3000份文件进行处理，内容、文件名不是很标准，而且文件类型多种多样，需要统一转成PDF，再从PDF解析为markdown。再各个处理的阶段，也会带来一些脏数据，比如doc转PDF的时候，就可能有部分doc转换失败。在数据处理过程中，往往会形成一些超大文件（这些文件中可能是乱码），这些文件如果不处理会影响后续的处理效率。排序完查看一下大文件和小文件，是不是最大文件是处理后乱码变成脏数据，还有最小文件是不是空白页没有进行处理。这里是估计了一下超过9页的文件可能是一个脏数据，然后就删除。

2025-03-23 22:08:40 650

原创【记录】并行运行olmocr把服务器跑崩

之前有一篇博客讲的并行脚本来处理，但发现这个olmocr光多GPU运行不管用，因为只开了一个30024端口，这些8个GPU仍然要争抢一个端口，其实质上还是串行的，那修改的思路就是，我开8个端口，每个端口对应一张卡，那是不是就能够彻底地并行运行了。好吧都是自己吓自己，不过到机房的时候，服务器确实卡死机了，我给他强制关机然后重新启动了。对olmocr的源码进行了修改，原先源码中端口是一个全局变量在最开始初始化定义了30024的端口，现在把他给改成可以接受命令行传过来的参数。8个卡两个端口，还是跑不成功。

2025-03-22 14:43:47 546

原创【工程实践/大批量文件处理】文件排序

sorted函数可以对文件列表进行排序，默认按字母顺序排序。通过key参数，可以自定义排序规则，例如按文件扩展名、文件大小、修改时间等。通过，可以实现逆序排序。如果你有更具体的排序需求，可以告诉我，我会帮你写出对应的代码！

2025-03-20 22:09:19 739

原创【Leetcode】430. 扁平化多级双向链表

需要找一个简单的题实现一下递归。

2025-03-19 20:06:31 466

原创【源码阅读/工程实践】并行运行10张GPU榨干算力

之前的还是串行，是因为在for循环中，每次执行下一个python文件都需要等待上一批的处理做完，这里可以有一种异步的方式，就是选定了GPU张数之后让命令在后台运行，这样就不用等待，会迅速接下一个python文件的执行。每次执行python文件都是新开一个进程用不一样的GPU环境，互相不冲突。有3000份PDF需要OCR解析，原有的项目是用命令行来执行的。将初始的数据文件等分成10份，用args来获取外部给的参数，并切换到对应的第几份文件上。都跑起来了，不浪费一点两台服务器的算力资源，全是中国红。

2025-03-19 19:13:27 1181

原创【Leetcode】328. 奇偶链表

原代码中使用了额外的 dummy 节点和 tail 指针来管理偶数节点，但实际上可以通过两个指针 odd 和 even 来分别管理奇数节点和偶数节点。其实就是双指针吧，双指针的两种形式，一头一尾向中间遍历，另一种就是两个指针头两条链了。一般不会超过两个指针。

2025-03-18 19:42:13 364

原创【环境】Huggingface_hub中下载指定模型

由于默认会下载到.cahce文件中，我们在全局环境中把下载位置改到自己的huggingface文件夹下面。直接用他的代码，第一次用代码会自动下载模型文件。中，找到这个模型，然后下面会有用例。这里我需要下载的是这个模型。

2025-03-18 13:58:09 954

原创【Leetcode】234. 回文链表

你使用 unordered_map 来记录每个值的出现次数，但这种方法无法判断链表是否是回文的。回文链表的特点是正序和逆序的值序列相同，而你的代码只是统计了值的出现次数，无法反映顺序信息。你的代码在最后检查 hash 是否为空，但这并不能判断链表是否是回文的。用递归优雅地反向遍历，然后同时有一个从左往右的节点，来进行双指针的判断。然后两种解法其核心都是双指针，一头一尾来进行判断，解决回文的问题。确实，这种哈希表只能记录出现次数，但是顺序信息不保留。用数组存储链表值，然后判断数组是否回文，用双指针。

2025-03-17 19:11:09 621

原创【源码阅读】olmocr中的prompts

这个提示词确实一步步写的清晰具体，而且给了足够的思考过程，有一个思维链的感觉，让他慢慢地按步骤去推理。然后给的背景信息放在最后面。

2025-03-17 15:53:01 718

原创【工具/调研】各种类型文件转PDF

LibreOffice 是一个免费的开源办公套件，支持将 .doc 文件转换为 .pdf。

2025-03-17 13:12:47 763

原创【Leetcode】206. 反转链表

正确更新指针：在反转链表时，你需要先保存当前节点的下一个节点（nextTemp），然后将当前节点的 next 指针指向前一个节点（prev），最后更新 prev 和 curr 指针。递归的精髓就是，它能够做到反向遍历，因为在顺序表中，反向遍历很简单，只有i–就行了，链表的反向遍历用递归，就是每次都会从尾部向前就行操作。不仅要存储先前的节点，还要存储后面的节点。需要有头尾指针，然后又觉得可以用递归。

2025-03-16 23:43:15 289

原创【Leetcode】203.移除链表元素

如果直接删除当前节点的话，就找不到前面一个节点，无法前一个节点next到当前的下一个节点。所以引入了一个pre来存储前一个节点。第二个示例和第三个示例，因为可能上来就遇到空链表或者是全是相同于所给值的链表，那就需要对头指针进行判断了，先来一个while循环遍历到合适的头指针位置，不相同才开始执行第一套流程。原来的代码中，head 的处理和后续节点的处理是分开的，优化后的代码通过哑节点统一处理，减少了冗余代码。从哑节点开始，每次判断哑节点的下一个节点是否与Val相同，这样就省去了原来代码第一个判断Head。

2025-03-15 16:29:51 758

原创【Leetcode】138.随机链表的复制

好简洁又高效的代码，本来以为一大串，结果用回溯简单解决了，思路设计太优雅巧妙了。如果 cachedNode 中没有当前节点的映射，说明该节点还未被拷贝。哈希表，用于存储原链表节点和拷贝链表节点的映射关系。看不懂题目意思，但猜想要用环，先写个环吧。如何能够掌握这种回溯的简单优雅的写法。检查当前节点是否已经被拷贝过。拷贝需要先创建节点,new。

2025-03-14 20:45:06 390

原创【部署】ubuntu部署olmOCR

libnccl.so.2 是 NVIDIA 的 NCCL（NVIDIA Collective Communications Library）库的一部分，通常用于多 GPU 通信。这是 CUDA 工具包的一部分，通常在安装 CUDA toolkit 时应该包含这个库。从报错信息来看，问题出在 pip install -e . 时无法创建 olmocr.egg-info 目录，原因是权限不足（Permission denied）。启动运行命令之后会安装模型权重文件，十几个G，还是很大的。

2025-03-14 17:16:15 2637 5

原创【Vue】上传PDF功能

JavaScript/TypeScript 中的模块导入语法，用于从 Element Plus 组件库中导入 ElUpload 和 ElDialog 两个组件从 @element-plus/icons-vue 图标库中按需导入多个图标的语法。UploadFilled：一个“上传”图标，通常用于表示文件上传操作。导出一个 Vue 组件，使其可以在其他文件中被导入和使用。

2025-03-14 16:50:18 1540

原创【环境问题】Vscode上ssh无法连接问题汇总

当你首次通过 SSH 连接到某个远程服务器时，SSH 客户端会将该服务器的公钥存储在 ~/.ssh/known_hosts 文件中。这样，在后续连接时，客户端会检查服务器的公钥是否与 known_hosts 中的记录匹配，以确保连接的安全性。问题：用户在D盘上创建了一个ssh文件夹，并把私钥文件放在该文件夹下，并且在配置信息中的IdentityFile写了D盘的这个路径。解决方法：先把私钥放到c盘的用户的.ssh下，然后配置信息中写对应的C盘的路径。解决方法：把之前的known_的所有文件都删掉。

2025-03-14 08:45:40 2683 1

TA关注的人

基于ArcFace损失函数训练的人脸特征提取模型

人脸检测算法-SCRFD

【部署/工具】zeotero好用的插件推荐以及安装

部署ubuntu部署olmOCR

遥感-PROSAIL模型-LAI反演

GOT-OCR的论文文件

Qt操作主/从视图及XML-实例：汽车管理系统

GEE计算遥感生态指数RESI

土壤侵蚀量化评估-文献《基于 USLE 的甘南川西北土壤侵蚀研究》

USLE模型-LS因子的计算

高分影像RPC校正工具

一带一路流域2022-2023年降水量变化GIF可视化

赵英时《遥感应用分析原理与方法》上课PPT

作物模型-土壤数据制备过程

2020年河北省玉米种植地分布30米分辨率

Python计算巴氏距离

雄安新区高程+区位组合图

行业的扎堆效应以及如何应对行业周期衰退的探讨

如何看待完美主义在做事情上？

导入gdal模块的两种方法

PermissionError: [WinError 32] 另一个程序正在使用此文件，进程无法访问