- 博客(64)
- 资源 (3)
- 收藏
- 关注
原创 RAG系统全链路优化策略
本文探讨了检索增强生成(RAG)技术的全链路优化方案。针对传统RAG系统在准确性、效率方面的不足,提出从数据解析到知识生成的系统性改进策略:采用轻量级专用模型实现智能化文档解析;创新递归式文档树状分块方法保持语义完整性;根据场景选择优化向量化模型;设计高效存储架构;通过意图识别精准理解用户需求;结合多策略检索提升召回率;运用智能重排序;优化提示词设计和生成参数控制。通过各环节的精细化设计,构建更准确、高效、可靠的智能知识系统。
2026-02-03 15:00:00
792
原创 AI Agent 入门、理解与搭建
本文介绍了AI Agent的核心概念、架构设计与实践路径。介绍了四大构成模块:感知、推理、行动、记忆,并提供了从模型层、框架层到工具层的技术栈与资源推荐。在构建方式上,强调无需从零开始,可借助低代码平台或LangChain、MetaGPT等开发框架快速搭建。AI Agent的设计应围绕明确目标展开。要开发优秀的Agent,需具备业务理解与系统架构思维,注重意图对齐、安全合规与工程化部署。最后,建议从模仿开源项目入手,通过实践逐步深入原理,培养全栈能力,从而高效构建能解决实际问题的AI Agent系统。
2026-01-30 10:00:00
818
原创 RAG检索增强生成综述
本文介绍检索增强生成(RAG)的核心概念、价值与应用场景,说明其作为融合检索与生成技术的架构范式,如何通过引入外部知识库提升大语言模型的准确性、时效性与可溯源性。文章解析了RAG的架构与流程、与微调的区别与协同、系统评估体系及构建方法,同时指出其当前局限性与未来发展方向,为理解和应用RAG技术提供了系统性综述。
2026-01-27 10:00:00
1234
原创 Python最小哈希实现海量文档去重
本文介绍了使用最小哈希和局部敏感哈希进行海量文档去重的解决方案。通过Jaccard相似度衡量文档相似性,将文档转换为特征集合,利用多个哈希函数生成最小哈希签名,通过比较签名相似度来估计文档相似度。该方法能有效解决百万级数据去重的性能瓶颈问题。
2026-01-12 10:00:00
884
原创 Python七种距离度量方法
本文系统介绍了七种常用的距离度量方法:欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离、闵可夫斯基距离、汉明距离和编辑距离。每种方法从核心思想、计算方法、Python实现、主要特点和应用场景五个维度进行介绍。通过比较不同距离的特点,可帮助选择最适合特定任务的距离度量方法。
2026-01-06 14:03:18
932
原创 Python数学:统计运算
本文介绍了统计运算中的描述统计和概率运算,并演示了使用NumPy、pandas和SciPy进行统计分析的方法,文章提供了完整的代码实现,帮助理解统计运算的实际应用。
2025-12-31 14:00:38
793
原创 Python数学:几何运算
几何运算通过数学方法研究空间中的几何对象及其关系,本篇介绍欧几里得几何、解析几何、射影几何和微分几何。通过Python实现示例及可视化,]这些几何运算方法在计算机图形学、游戏开发和工程建模等领域具有广泛应用价值。
2025-12-31 14:00:00
947
原创 Python数学:幂运算与根式运算
本文介绍了Python中幂运算和根式运算的实现方法及应用场景。并展示了在金融计算、几何计算、物理计算和机器学习等领域的实际应用案例。
2025-12-30 10:00:00
974
原创 Python数学:函数运算
本文介绍了Python中常用的四种函数:指数函数、对数函数、三角函数和双曲函数。并附有使用方法、适用场景和代码示例。
2025-12-30 09:30:00
1467
原创 Python实现地理围栏检测器
地理围栏技术通过虚拟边界实现区域管控,广泛应用于共享单车、物流配送、疫情防控等领域。其核心是判断点是否在多边形内,常用算法包括: 射线法、 环绕数法。本文介绍了两种算法和1中工具,附有示例代码实现,并能可视化展示。
2025-12-28 10:00:00
979
原创 Python计算网格中的岛屿数量
本文介绍了二维网格中岛屿数量统计的算法解决方案。主要包含四连通和八连通两种岛屿定义方式,分别使用DFS和BFS算法实现。文中给出了Python实现代码示例,适用于不同连通性要求的岛屿识别问题。
2025-12-26 10:25:18
696
原创 Python字符串压缩算法
本文介绍了数据压缩的基本概念和三种算法。解释压缩比和时间效率,分析了三种压缩算法:游程编码(RLE)、LZW字典编码、霍夫曼统计编码。并配Python实现示例,展示了压缩原理和应用效果。
2025-12-26 10:00:00
947
原创 Python实现监控数据的可视化分析
本文介绍了一个Python监控数据可视化方案,通过配置文件和示例代码实现告警数据的直观展示。该方案可快速识别监控数据的异常模式和趋势变化。
2025-12-18 10:00:00
753
原创 单遍聚类:实时数据流聚类解决方案
本文介绍了单遍聚类算法,这是一种专为大规模数据集和数据流设计的高效聚类方法,仅需单次扫描数据即可动态生成聚类,无需预设聚类数量或多次迭代。文章提供了Python示例代码,分析了其优缺点。并与K-Means、DBSCAN等进行多对比,明确了其计算效率极高但聚类质量有限的特性等内容。
2025-10-11 10:00:00
1562
原创 PyMySQL数据库连接与优化
本文介绍了如何使用 PyMySQL 连接和操作 MySQL 数据库,包括基本连接、CRUD 操作、事务处理以及在高并发环境下使用连接池优化性能。通过合理的连接池配置和错误处理机制,可以构建出稳定高效的数据库应用。
2025-09-25 10:00:00
1112
原创 NPU开发环境配置与PaddlePaddle安装排错
本文介绍了NPU环境的基础配置和PaddlePaddle在NPU上的安装方法。主要包括NPU环境了解、PaddlePaddle NPU版的安装流程、常见问题解决方案等。文中提供了部分常用命令的示例和错误排查方法,帮助开发者解决NPU相关问题。
2025-09-24 10:00:00
1628
原创 时间序列预测任务基于分组的滞后特征构建
当时间序列预测任务的数据涉及到分组时,构建滞后特征时需要额外注意。本文将介绍如何正确处理这类分组时间序列的滞后特征构建,避免数据泄漏并保证特征计算的独立性。
2025-09-15 10:00:00
1123
原创 Python依赖冲突排查工具pipdeptree介绍
pipdeptree 是一个用于可视化 Python 环境依赖树、诊断冲突的命令行工具。本文介绍了pipdeptree的使用方法和优势,并提供示例效果。
2025-09-12 14:00:00
1385
原创 CUDA升级导致Conda环境兼容性问题解决方案
升级CUDA版本后,历史Conda环境可能因驱动路径变更导致兼容性问题(如CUBLAS报错)。本文介绍了临时通过环境变量指定CUDA版本、永久修改bash配置、创建切换脚本、符号链接全局切换等解决方法。
2025-08-29 10:00:00
1934
原创 时间序列预测任务中时间字段特征工程30+示例
本文将系统介绍时间字段的特征拓展方法,包括基本信息提取、周期性编码、时间间隔计算、节假日处理以及基于时间的统计特征构建。
2025-08-28 10:00:00
1978
原创 Python JSON操作详解
本文介绍了Python中处理JSON数据的常用方法与工具,包括JSON文件读写、数据类型映射、字符串转换、命令行工具、性能与大数据处理等方面。
2025-08-22 10:00:00
1496
原创 pip国内镜像源及配置方法
本文介绍了国内常用的PyPI镜像源及配置方法。推荐清华大学、阿里云等7个主流镜像源,并详细说明临时/永久配置方案。文章还包含镜像源选择建议、速度测试方法及恢复默认配置的操作指南等。
2025-08-21 15:00:00
6231
原创 PCA降维介绍
PCA降维广泛应用于数据预处理、特征提取、数据可视化等领域。本文将从核心思想、动机、实现步骤、代码到注意事项,介绍PCA的使用方法与适用场景。
2025-08-21 10:00:00
1018
原创 Pandas数据结构DataFrame详解
本文介绍了Pandas中DataFrame的核心功能,包括创建、基本操作(查看、选择、过滤、修改)、常用功能(统计、缺失值处理、排序、分组聚合、应用自定义函数、数据结构转换)、合并与分割方法等,并提供了代码示例。
2025-08-19 10:00:00
2903
原创 Python中3种语言检测库
Python中有多种语言检测的库,本文档介绍了三个主流语言检测库:langdetect、langid和cld2/pycld2。
2025-08-18 10:00:00
1628
原创 Python的6种列表分批方法
本文介绍了python对列表的6种分批方法:列表推导式、生成器、zip + 迭代器、numpy.array_split、递归、more_itertools.chunked。详细介绍了如何使用、展示了示例代码和不同应用场景如何选择。
2025-08-13 14:30:00
1089
原创 Python常用的5种中文分词工具
本文介绍了五种常用的中文自然语言处理工具:jieba、jiagu、snownlp、thulac和LAC,重点讲解了它们的分词功能及其他核心特性,并提供了相关示例代码。
2025-08-12 12:00:01
1291
原创 Python用Flask封装API及调用介绍
Flask是一个轻量级的Python Web框架,适合用来快速构建RESTful API。本文介绍使用Flask封装API的几种常见方式,包括GET请求、POST表单和POST JSON,并提供相应的调用示例。
2025-08-11 10:00:00
1846
原创 Python WSGI HTTP 服务器 Gunicorn介绍
Gunicorn是一个纯Python的WSGI HTTP服务器,用于运行Python Web应用程序。本文介绍了Gunicorn的使用方法的注意事项。
2025-08-10 10:00:00
894
原创 Tmux终端复用器介绍
Tmux是一个终端复用工具,允许用户在一个终端窗口中创建多个会话、窗口和面板。本文介绍了tmux的主要功能、基本操作、高级功能等。Tmux适合远程工作,能保持断开连接后的进程运行,提高工作效率,帮助你更好的操作服务器等。
2025-08-09 10:00:00
1169
原创 Python操作关系型数据库
本文介绍了PyMySQL库的基本使用方法,包括数据库连接配置、表操作和CRUD操作示例。提供了实用代码片段和性能优化建议。
2025-08-08 10:00:00
1391
原创 Python中argparse模块命令行参数解析介绍
本文介绍了python使用argparse解析命令行参数,包括自动生成帮助和使用信息、位置参数和可选参数介绍、参数类型和验证、子命令系统、自动错误处理等部分,包含功能解释及示例代码。
2025-08-07 10:00:55
1140
原创 Python分块读取大型Excel文件
传统方法在处理大型Excel文件时可能面临内存不足的问题。本文通过分块读取,适合处理数百MB甚至GB级别的Excel文件。
2025-08-05 14:51:40
727
基于PyGame粒子系统的新年烟花模拟程序
2025-12-31
自然语言处理-汉语词性对照表-词性编码与名称对应关系
2025-08-11
自然语言处理-中文百家姓-数据集
2025-07-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅