- 博客(142)
- 收藏
- 关注
原创 提示词(Prompt)——链式思维提示词(Chain-of-Thought Prompting)在大模型中的调用(以 Qwen 模型为例)
链式思维提示词是**提示工程(Prompt Engineering)**中最实用、最有效的逻辑强化技巧之一。它能让模型“像人一样思考”,在推理、分析、解释性任务中显著提高准确率。不要直接问模型答案,要教它“先想清楚,再回答”。通过在提示中添加一句:让我们来分步思考。你就能显著提升模型的逻辑推理能力与可靠性。
2025-10-28 21:31:22
1035
原创 提示词(Prompt)——指令型提示词在大模型中的调用(以 Qwen 模型为例)
指令型提示词让模型从“对话式助手”变成“任务执行者”。结合合理的参数控制、结构化输出与明确约束,可以实现:精准可控的生成结果;结构化数据接口;高鲁棒性与可复现性。未来的提示工程趋势,也正在从“写一句话”走向“编写指令集”。当提示词具备了程序化逻辑,模型调用就不仅是“问答”,而是“任务执行”。指令型提示词的核心,是把自然语言变成机器可执行的“微命令”。当提示足够明确,模型就能像程序一样精准执行。
2025-10-28 21:27:03
1082
原创 BERT 原理解析:从 Transformer 到双向语义理解
词向量模型(Word2Vec、GloVe)—— 静态词向量;RNN / LSTM 模型—— 处理顺序信息但计算慢;单向语言模型(GPT、ELMo)—— 只能理解部分上下文。而的诞生改变了一切:它首次让模型能在大规模语料上双向理解上下文语义,并通过预训练 + 微调(Pre-train & Fine-tune)机制通吃各类 NLP 任务。BERT 的革命性意义首次实现了双向语义建模;创造了“预训练 + 微调”范式;极大推动了 NLP 的工业落地;成为后续所有大模型(GPT、ChatGPT)的奠基。
2025-10-27 21:48:44
1807
原创 什么是提示词(Prompt),提示词类型、结构解析
在与大语言模型(LLM, Large Language Model)交互时,我们给模型的文字输入就叫做提示词(Prompt)。Prompt 不仅仅是“输入一句话”,而是一种引导模型思维的工程技术。它的作用是告诉模型:你是谁(角色)你要干什么(任务)你要怎么干(步骤)你要输出成什么样(格式)提示词不是简单的输入,而是一种思维设计。优秀的提示词能让同一个模型表现出完全不同的能力。当我们理解提示的层级、类型与策略,就能让AI真正成为高效的“思维伙伴”。
2025-10-26 23:44:48
1897
原创 RAG:让大模型“既懂又查”的智能系统
要点内容RAG 核心目标把外部知识引入生成流程关键组成检索 + 向量数据库 + 大模型生成典型框架优势实时知识、低成本、强扩展性未来趋势Graph-RAG、Agent-RAG、自适应检索。
2025-10-23 23:39:17
804
原创 LangChain:让大模型具备思考与行动能力的框架
✅ 优点:快速构建复杂的多步推理应用模块化、扩展性强支持主流大模型(OpenAI、Qwen、Claude、Gemini 等)自带 Memory、Tools、RAG、Agents 等高级能力⚠️ 缺点:框架抽象层多,调试相对繁琐对初学者来说理解 prompt 流程和 agent 执行机制有一定门槛。
2025-10-23 23:36:21
1106
原创 深度学习——基于 PyTorch 的蔬菜图像分类
1. 配置参数ROOT_DIR = 'vegetables_cls' # 修改为你的实际路径'bocai','huluobo','xilanhua'项目根目录│每个.txt文件存储图像路径及其标签,例如:ROOT_DIR:数据根目录,包含训练、验证、测试图像。:共 6 种蔬菜类别。DEVICE:自动检测是否可用 GPU 加速。通过CLASSES数组定义类别名。# 2. 自定义 Dataset# 读取 txt 文件。
2025-10-22 21:55:03
1128
原创 自然语言处理(NLP)——自然语言处理原理、发展历程、核心技术
自然语言处理(Natural Language Processing, NLP)是人工智能的重要分支,旨在让计算机能够。简单来说,NLP 是“让机器读懂人话”的技术。语言是人类最复杂的符号系统之一,包含语音、文字、语义、情感、上下文等多维信息。NLP 通过计算机算法,将这些语言特征转化为机器可理解的数字信号与结构化表示。举例:输入一句话:“我今天心情很好。机器需要识别出:主语:“我”时间:“今天”情绪倾向:正向句子类型:陈述句。
2025-10-21 22:08:46
1232
原创 大模型(Large Language Model, LLM)——什么是大模型,大模型的基本原理、架构、流程
大模型”(Large Model)通常指具有超大参数量(数十亿至万亿)海量训练数据和通用智能能力的深度学习模型。GPT 系列(OpenAI)文心、通义、百川、讯飞星火(中国)这些模型具备“通用语言理解与生成能力”,能完成多种任务:翻译、编程、问答、写作、推理、图像理解、代码生成等。模块核心内容架构基础训练目标预测下一个词关键阶段预训练 → 微调 → 推理优化方法量化、剪枝、蒸馏应用领域内容、代码、教育、医疗、游戏未来趋势多模态 + 低能耗 + 智能体。
2025-10-21 22:01:07
2384
原创 (linux)centos联网,xshell连接不上,亲测好用,亲自走过的坑
注意:地址不要填xxx.xxx.xxx.0,那是子网,地址的最后一个点后面随便填一个不要和其他重复的就好,还有你们的第三位也不一定是“116”(这两是一样的操作,你连上了,但不稳定,要频繁开关网络)我的22就剩随便填的,没有特殊意义。还原默认设置,重新配子网IP。然后现在重复上面联网的操作。3那里就填8.8.8.8。连接完成,可以上网了。
2025-10-20 21:47:00
770
原创 深度学习——循环神经网络(RNN)
循环神经网络(RNN)是深度学习中里程碑式的结构之一,它首次让神经网络具备了“记忆”的能力,为时间序列建模提供了强大工具。从最初的 RNN 到 LSTM、GRU,再到如今的 Transformer,序列建模经历了从时间依赖到全局注意力的演化。尽管在现代 NLP 中 Transformer 占据主导地位,但 RNN 的思想仍深刻影响着后续模型设计。理解 RNN,不仅是掌握深度学习的必经之路,更是理解时序智能的基础。
2025-10-20 09:02:31
1074
原创 深度学习——循环神经网络(RNN)实战项目:基于PyTorch的文本情感分析
✅ 本项目展示了如何使用循环神经网络处理自然语言文本:学习序列依赖捕捉上下文语义应用于二分类情感分析📈替换为LSTM / GRU改进长距离依赖。添加增强泛化能力。使用进一步优化。
2025-10-19 21:57:16
1114
1
原创 深度学习——YOLO 原理与各版本演化
版本年份核心结构特点与改进主干网络是否Anchor-freeYOLOv12015单阶段回归端到端检测Custom CNN否YOLOv22016Anchor机制Darknet-19否YOLOv32018多尺度检测残差连接、3层预测Darknet-53否YOLOv42020CSP+PANet否YOLOv52020PyTorch版CSPDarknet否YOLOv62022Rep结构Anchor-free、蒸馏✅YOLOv72022。
2025-10-18 23:40:39
1358
原创 深度学习——基于ResNet18迁移学习的图像分类模型
通过继承该类通过.txt文件读取样本路径与类别标签,实现灵活的数据管理。本文完整展示了一个基于ResNet18 迁移学习的20类图像分类任务,从模型加载、参数冻结、数据增强、训练与验证流程,到优化器与学习率调度的全流程实现。通过冻结特征提取层、仅微调分类层的设计,我们能够以极低的训练成本获得高准确率模型,体现了迁移学习在现实任务中的高效性与实用价值。
2025-10-18 21:54:02
1022
原创 深度学习——基于 ResNet18 的图像分类训练
该类通过文本文件(如train2.txt)加载图片路径和标签。使用交叉熵损失函数处理多分类任务,优化器为Adam。模块作用特点ResNet18特征提取主干使用 ImageNet 预训练权重Dataset读取图片与标签支持 transform 自动增强DataLoader批量化输入shuffle 提升训练效果train()前向传播与反向传播更新梯度Test()模型评估计算平均损失与准确率学习率调整自动降低学习率防止过拟合。
2025-10-17 20:50:49
1104
原创 计算机视觉(opencv)——基于HSV颜色空间的实时颜色检测
该系统通过摄像头实时捕捉视频流,将图像从BGR空间转换为HSV空间,并通过设定阈值对指定颜色区域进行提取与显示,从而实现实时的颜色识别与可视化效果。与RGB不同,HSV将颜色和亮度分离,这意味着在光照变化的情况下,Hue与Saturation部分仍然保持较稳定的值,使得颜色检测更加稳健。例如,棕色、绿色等颜色在不同光照下RGB值变化明显,但HSV的Hue值变化范围较小,这使得检测更可靠。函数,可计算检测区域的重心,并绘制实时轨迹,实现类似激光笔跟踪的效果。将BGR图像转换为HSV空间,方便进行颜色分离。
2025-10-17 20:30:03
751
原创 计算机视觉(opencv)——实时颜色检测
颜色识别的关键在于颜色空间的选择与阈值判定。人类的颜色感知主要由色调(Hue)、饱和度(Saturation)与亮度(Value)决定。OpenCV 默认读取的图像为BGR(蓝绿红)模式,但这种模式不利于分离颜色信息,因此通常将其转换为HSV 颜色空间。H(Hue)色调表示颜色的种类(0~180,对应红、橙、黄、绿、青、蓝、紫等色带)。S(Saturation)饱和度表示颜色的纯度,越高颜色越鲜艳。V(Value)亮度表示颜色的明暗程度。通过对 H 值的阈值范围判断,可以快速区分不同颜色。
2025-10-16 22:30:09
2115
1
原创 计算机视觉(opencv)——基于 MediaPipe 的实时面部表情识别
本文介绍了一个从数据采集、模型训练到实时推理的端到端面部表情识别流程,使用 MediaPipe 提取 468 个面部关键点作为特征,采用经典机器学习方法进行训练并实时展示识别结果。该方案易于实现、便于扩展,适合作为原型系统与教学示例。后续可在数据质量、特征工程、模型优化与多模态融合方向继续改进,以提升准确率与鲁棒性。下面附上你提供的两段完整代码(未改动),可直接保存为脚本运行与调试。代码一:数据采集脚本import cv2import csvimport os。
2025-10-16 22:30:02
1206
原创 计算机视觉(opencv)——人脸网格关键点检测
在人机交互、虚拟现实、增强现实、情绪识别、动作捕捉等计算机视觉领域中,人脸的精确识别与定位扮演着极其重要的角色。传统人脸检测方法通常只能检测人脸区域的矩形框,而现代深度学习技术的发展,使我们可以实现更加精细的“人脸关键点检测”和“人脸网格化”。本篇文章将以 OpenCV 和 MediaPipe 为基础,详细介绍人脸网格(Face Mesh)技术的原理与应用,并通过一段完整的 Python 代码,演示如何实时检测和绘制 478 个三维人脸关键点。
2025-10-15 22:39:17
1363
4
原创 计算机视觉(opencv)——基于 MediaPipe 人体姿态检测
人体姿态估计(Pose Estimation)是计算机视觉中非常实用的模块,常用于动作识别、运动分析、人机交互、增强现实等场景。Google 的 MediaPipe 提供了一套开箱即用、实时性能优良且易用的姿态估计模型,结合 OpenCV 做图像 I/O 与显示,可以快速搭建原型。下面我将基于你给出的代码,从原理、逐行解析、参数与调优、可视化技巧、常见问题、扩展与工程化建议等方面做详尽讲解,帮助你把这段简单示例拓展成工程级代码或学术实验。
2025-10-15 22:19:52
1176
原创 计算机视觉(opencv)——基于 MediaPipe 与机器学习的手势识别系统
本文系统实现了一个完整的“基于MediaPipe + 传统机器学习”的手势识别系统。✅利用MediaPipe获取21个手部关键点;将三维坐标展开为63维特征;采用标准化处理与多模型对比;支持实时摄像头推理;准确率可达90%以上。✅使用LSTM或CNN实现动态手势识别;引入多手检测;扩展更多手势类别;与智能家居或机器人系统联动。
2025-10-13 23:55:00
1408
原创 计算机视觉(opencv)——基于 MediaPipe 实现手部关键点检测与可视化
MediaPipe是 Google Research 开源的跨平台机器学习推理与可视化框架,支持多种实时检测任务,例如:人脸检测与表情分析;手部检测与姿势追踪;全身骨骼姿态识别;物体检测与分割。在本例中,我们使用的是模块,用于检测手部的 21 个关键点并进行可视化绘制。通过本文的实战讲解,我们了解了如何利用模块结合OpenCV实现实时手部关键点检测与可视化。该方法无需手动训练模型,几行代码即可完成高质量的检测任务,为后续的手势识别、动作控制等应用打下坚实基础。
2025-10-13 21:54:50
1155
原创 计算机视觉(opencv)——基于 MediaPipe 的手势识别系统
检测手部关键点(如手指、掌心、手腕等位置);通过关键点之间的距离关系判断手指是否伸展或弯曲;根据手指伸展数量映射为具体的数字或手势。Google 的MediaPipe提供了高精度的手部检测与关键点跟踪模型,可实时返回21 个关键点坐标。我们可以基于这些坐标信息,计算手指弯曲程度,从而判断出用户展示的手势。本文展示了一个基于的实时手势识别系统。通过检测手部 21 个关键点并计算距离关系,我们能够识别从“0”到“10”的静态手势。该系统具有实时性强、部署简单、可扩展性高。
2025-10-12 22:02:34
1041
2
原创 计算机视觉(opencv)——仿射变换(Affine Transformation)
mat_src:原始图像中的三个参考点;mat_dst:目标图像中这三个点的新位置。仿射矩阵由这三组对应关系自动计算。仿射变换是图像几何变换中最常用的技术之一,兼具数学的优雅与工程实用性。它通过三点对应法求出变换矩阵,实现平移、旋转、缩放、剪切等多种操作,同时保持图像的几何直线关系。用于计算仿射矩阵;用于执行变换。通过理解其数学原理与参数意义,我们可以更灵活地控制图像几何结构,实现从视觉校正到数据增强的各种应用。✅仿射变换矩阵是 2×3;需提供 3 对非共线点;warpAffine。
2025-10-11 22:45:27
1492
原创 计算机视觉(opencv)——基于 OpenCV DNN 的实时人脸检测 + 年龄与性别识别
本文详解了基于OpenCV DNN模块的实时人脸检测与年龄性别识别系统。系统采用三类预训练模型实现人脸检测、年龄和性别识别功能,依赖OpenCV、Pillow和Numpy等库。文章详细解析了代码实现,包括模型加载、人脸检测、中文显示等关键环节,并指出当前使用整帧而非裁剪人脸区域的问题。针对性能优化,建议采用异步推理、分辨率管理和硬件加速等技术。此外,文章强调了模型存在的偏差问题,提醒注意隐私合规和伦理风险,建议在敏感场景下慎用。最后提供了落地实践清单,包括模型匹配验证、准确性提升和隐私保护措施等。
2025-10-10 21:37:43
1620
2
原创 模型部署——Flask 部署 PyTorch 模型
这两段代码组合起来实现了一个深度学习图像分类推理系统代码一(服务端)使用 Flask 搭建 HTTP 服务器,加载一个 PyTorch 训练好的模型(如 ResNet18),接受图片上传请求,并返回分类预测结果(前 3 名类别与概率)。代码二(客户端)使用requests库向服务端发送图片(HTTP POST 请求),获取预测结果并打印。这种结构在工业场景中非常常见,被称为:[模型服务化部署]+[客户端调用]
2025-10-10 08:55:17
1290
原创 计算机视觉(opencv)——嘴部表情检测
本文从嘴部几何特征出发,通过计算MAR(高宽比)与MJR(嘴宽比),实现了实时的“微笑”、“大笑”、“正常”表情识别,并扩展实现了“哭/悲伤”的检测。轻量级:无需深度学习模型;实时性强:CPU 即可流畅运行;可扩展性高:容易加入更多表情类型。这种基于几何分析的嘴部表情识别方法,虽然精度略低于深度神经网络,但在嵌入式设备、实时监控、教学分析等场景中具备极高的实用价值。✅完整检测公式汇总参数定义功能MAR嘴部高度 / 宽度检测张嘴程度MJR嘴宽 / 下颌宽检测微笑程度SAD嘴角高度差。
2025-10-07 15:49:40
986
原创 计算机视觉(opencv)——疲劳检测
眼睛纵横比(EAR)由Soukupová 和 Čech 提出,基于眼睛的 6 个关键点位置计算。EAR 的优点在于:计算量小、对头部轻微转动具有鲁棒性、实时性好。其计算公式为:其中 p1~p6 为眼睛轮廓的 6 个关键点(见文中代码注释)。当眼睛闭合时,EAR 会显著下降;通过对连续帧的 EAR 设阈值与持续帧数,可以区分瞬时眨眼与真正的闭眼(疲劳/打瞌睡)。基于 EAR 的疲劳检测是一条工程上可快速落地的路径,适合对实时性要求高、计算资源受限的场景。
2025-10-07 15:47:57
5663
11
原创 计算机视觉(opencv)——基于 dlib 和 CNN卷积神经网络 的人脸检测
本文系统介绍了dlib CNN 人脸检测器的原理、代码实现、优化方法及应用场景。CNN 检测器比传统 HOG 检测器更强大,适用于多角度、复杂光照的图像,尤其适合静态图像高精度处理。若要实时视频检测,可根据需要调整参数,或者在 GPU 上运行以保证帧率。
2025-09-29 21:49:07
1481
1
原创 计算机视觉(opencv)——基于 dlib 人脸对齐
本文用dlib实现了完整的人脸检测与对齐流程,主要包含以下步骤:使用检测人脸使用 68 关键点预测器提取人脸关键点调用进行人脸对齐用 OpenCV 显示结果人脸对齐是人脸识别前非常关键的预处理步骤,可以显著提升识别准确率。该代码也可以很容易扩展到视频流,实现实时人脸对齐。
2025-09-29 21:49:01
909
原创 计算机视觉(opencv)——基于 dlib 关键点定位
dlib 提供了强大且易用的人脸关键点检测能力,短短几十行代码即可完成精确的面部特征提取。从静态图片到实时视频,从单人到多人场景,都能轻松适配,并可扩展到表情识别、人脸对齐、AR 特效等应用。推荐练习改造代码,让不同区域用不同颜色标注,直观看出五官分布。用关键点计算嘴巴张开程度,实现“张嘴检测”。把代码集成到实时摄像头程序中,做个实时表情监测工具。
2025-09-28 22:36:57
1469
原创 计算机视觉(opencv)——基于 dlib 轮廓绘制
通过drawLine()和,我们能把离散的 68 个点变成有结构的人脸轮廓,帮助调试、分析、可视化,甚至直接用于人脸表情识别和特效叠加。给不同五官区域设置不同颜色,做一张“彩色人脸线稿”。用嘴巴开合距离做一个“张嘴检测”,尝试控制屏幕上的动画。改造成实时版本,看轮廓跟随头部运动的效果,测试稳定性。
2025-09-28 22:36:56
947
原创 计算机视觉(opencv)——基于 dlib 的实时摄像头人脸检测
dlib是一个 C++ 开发的开源机器学习与图像处理库,提供了众多计算机视觉功能,例如:人脸检测(HOG + 线性分类器 / CNN)人脸关键点定位(68 点、5 点模型)人脸对齐与识别机器学习算法(SVM、KNN、聚类等)本文使用 dlib 的HOG (Histogram of Oriented Gradients) + 线性分类器人脸检测器,速度快且对普通电脑 CPU 友好。通过本文,你学会了:✅ 使用 dlib 调用摄像头实时捕获画面✅ 用检测人脸。
2025-09-27 21:33:21
897
原创 计算机视觉(opencv)——基于 dlib 实现图像人脸检测
dlib是一个用 C++ 编写、功能强大的机器学习与图像处理开源库,提供了人脸检测、人脸关键点识别、人脸对齐、人脸识别等功能。与 OpenCV 的 Haar 级联分类器相比,dlib的人脸检测器默认使用HOG + 线性分类器 + 图像金字塔 + 滑动窗口方法,具有更高的准确率和更强的泛化能力。检测精度更高:比 OpenCV Haar 分类器更稳定,误检更少。支持小人脸检测:可通过上采样提高对小人脸的检测效果。无需手动训练:直接调用即可使用。速度较快。
2025-09-27 21:33:19
1000
1
原创 基于 OpenCV LBPH 人脸识别的实战详解
LBPH 是一条非常实用的入门/工程路径:实现简单、实时性强、对少量样本有效。要使其在实际场景稳定运行,关键在于高质量的预处理(检测、对齐、均衡化)适当的数据规模与增强、以及基于验证集的阈值校准。当场景需求和数据规模增长时,考虑用轻量级 CNN 特征或现代人脸识别库(例如 InsightFace、FaceNet)来替代或增强 LBPH。
2025-09-25 21:13:03
843
原创 基于 OpenCV Eigenfaces 的人脸识别实战与原理解析
每张图片对应一个整数标签。这里表示属于同一个人(标签 0),属于另一个人(标签 1)。标签必须是整数,并且与 images 数量匹配。Eigenfaces 是一种基于统计学的人脸识别方法,利用 PCA 将高维人脸图像投影到低维特征空间,再用简单的距离度量进行分类。它优雅、简洁、易于实现,适合教学和小规模实验,但在真实复杂环境下鲁棒性不足。本文详细解析了代码实现、原理、参数调优和常见问题,并给出了改进版代码,加入了预处理、异常检查和结果可视化。
2025-09-25 21:13:00
1137
原创 基于 OpenCV 的 FisherFaceRecognizer 人脸识别与中文标签显示实践
在人脸识别中,常用的降维方法有 PCA 和 LDA。PCA(主成分分析):通过寻找数据最大方差方向,将高维人脸数据投影到低维空间,保留主要信息,降低噪声和冗余。缺点是它只考虑方差,不关注类别信息。LDA(线性判别分析):与 PCA 不同,LDA 不仅考虑数据分布,还考虑类别可分性。它试图找到一个投影方向,使得同类样本的投影尽可能接近,而不同类样本的投影尽可能远,从而提升分类性能。这里定义了四张人脸图像的类别标签:0 表示第一类人(例如刘亦菲)1 表示第二类人(例如胡歌)
2025-09-24 23:21:22
906
1
原创 计算机视觉(opencv)实战——人脸识别:LBPH / Eigen / Fisher 综合使用指南(训练、保存、加载、预测与调优)
收集至少 5~10 张/人的多光照、多表情照片(LBPH 少量也能用)。用级联/关键点检测裁切并对齐人脸,转为灰度并统一尺寸(如 200×200)。做直方图均衡或其他归一化。按目录加载数据,构建。选择识别器(LBPH/Eigen/Fisher),进行train()。使用验证集调参并设定confidence阈值。save()模型与 label 映射。部署时read()模型,并在实时流中检测 -> 预测 -> 阈值判定 -> 输出结果。
2025-09-24 23:21:13
1298
原创 计算机视觉(opencv)练习——抠图(图像裁剪与轮廓提取)
图像预处理:缩放、旋转、灰度化边缘检测:Canny 算法轮廓提取:寻找最大面积目标掩模应用:提取目标并保存这种方法不仅适用于风扇图片,也可以应用于其他物体提取,如分割零件、裁剪证件照、检测物品轮廓等。
2025-09-23 20:48:07
1207
原创 计算机视觉(opencv)实战三十二——CascadeClassifier 人脸微笑检测(摄像头)
本文从原理到实现,详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测:讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图,帮助理解执行过程。给出了常见问题和优化建议,甚至扩展到深度学习方法。这种方法简单、轻量、实时性好,非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性,建议使用深度学习检测器替代 Haar 分类器。
2025-09-22 21:42:35
1760
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅