自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(573)
  • 收藏
  • 关注

原创 Face_Recognition:AI 让机器“看懂”你的脸

人脸识别技术已广泛应用于手机解锁、智能门禁等领域。Python的face_recognition库基于深度学习,提供人脸检测、关键点定位和特征比对等功能,通过简单API实现快速开发。其核心原理是将人脸映射到128维特征空间进行相似度计算。虽然该库易用性强,适合学习和原型开发,但在复杂环境和精度要求高的场景下仍存在局限。未来人脸识别将向3D识别、多模态融合和隐私合规等方向发展。该技术正朝着更智能、更安全的方向演进,成为AI应用的重要领域。

2025-08-31 16:31:37 152

原创 人脸识别中的 AdaBoost:从弱分类器到强大的检测器

AdaBoost算法在人脸识别发展史上具有里程碑意义。作为Viola-Jones人脸检测器的核心,它通过组合弱分类器构建强分类器,实现了首次实时人脸检测。该算法利用Haar特征和积分图技术,结合级联分类器结构,解决了早期人脸检测在实时性、鲁棒性方面的局限。虽然深度学习已取代其主流地位,但AdaBoost的特征选择思想仍具影响力,且在资源有限场景中仍有应用价值。Python中基于OpenCV的实现展示了其经典应用,揭示了这一算法在人机交互技术发展中的奠基作用。

2025-08-29 21:35:56 440

原创 AdaBoost:让弱学习器变强的魔法算法

摘要:AdaBoost是一种自适应增强的集成学习算法,通过组合多个弱分类器(如决策树桩)构建强分类器。其核心机制是迭代训练:初始化样本权重后,每轮训练调整权重,使后续分类器更关注错误样本,最终加权投票输出结果。该算法具有自适应性好、泛化能力强、实现简单等优点,广泛应用于人脸检测、信用评估等领域。Python示例显示其在鸢尾花分类中准确率达90%以上。虽然被后续Boosting算法超越,但AdaBoost的"弱模型协同增效"思想仍深刻影响机器学习发展。

2025-08-29 17:08:33 573

原创 FER-2013 Dataset:人工智能如何读懂人类表情?

FER-2013数据集是表情识别领域的重要基准,包含35,887张48×48像素的灰度人脸图像,标注为7种情绪类别。作为AI学习的"启蒙教材",它具有标准化程度高、公开可用等优势,广泛应用于人机交互、智能安防等领域。虽然存在分辨率低、类别不平衡等挑战,但通过基础的CNN模型就能实现约60%的准确率。未来需要结合多模态数据才能更准确地理解人类复杂情绪。该数据集为表情识别研究奠定了重要基础,推动了AI对人类表情的理解能力。

2025-08-29 10:53:16 540

原创 你真的会用景别剪片子吗?

景别(Shot Size)是影视创作中用来描述镜头画面范围和人物所占比例的术语。它不仅决定画面的视觉信息量,也承担着情绪传达和叙事推进的功能。远景(Long Shot):展现环境为主,人物较小。用于交代地点、氛围。全景(Full Shot):完整展现人物全身,同时带有背景信息。中景(Medium Shot):通常从腰部以上到头顶。适合对话场景,兼顾环境和人物表情。近景(Medium Close-up):胸部以上,强化表情和情绪。特写(Close-up):聚焦脸部或物体细节,用于情绪高潮或重点刻画。

2025-08-03 12:37:22 872

原创 论《 Andrew Ng演讲的<人工智能如何赋能任何企业>》

但 Ng 强调,通过构建标准化的“AI 工程师”角色,类似过去的信息化或工业自动化浪潮,未来 AI 也可以变成像“水电煤气”一样的通用基础设施。他用一系列接地气的案例说明了“AI 下沉”的可行性。对大众观众来说,Ng 的演讲传达了一个乐观而理性的愿景:AI 不再只是科研舞台上的明星,也不只是“取代岗位”的幽灵,它可以是每个普通企业提升竞争力的工具,是每位员工学习成长的助力器。他用清晰的数据、务实的方案和亲民的案例,展现了 AI 落地的多种路径,也让人看到一个不被巨头垄断、更加公平和多样的技术未来。

2025-07-26 23:21:48 254

原创 论《 Max Jaderberg演讲的<人工智能如何节省人类数十亿年的研究时间>》

Jaderberg 的立场并非盲目乐观,而是鼓励大众理性理解 AI 的能力与局限,并呼吁开放、合作的科技未来。他讲述的不是科幻小说中的未来,而是正在发生的现实——AI 正在通过算法优化,为人类节省“亿万年”的研究时间。更重要的是,这项研究揭示了 AI 不再只是处理数据、识别图像或生成文本的工具,它正在迈向“创造知识”的新阶段。他在演讲中坦言,目前的 AI 系统虽然强大,但依旧依赖于大量的算力训练,难以解释其推理路径,也不具备人类常识或伦理判断力。在他看来,AI 不应是替代者,而是放大人类智慧的加速器。

2025-07-22 17:13:01 510

原创 卡尔曼滤波器

状态向量描述系统在时刻 $k$ 的状态,例如物体的位置、速度等。观测向量我们能实际测量到的值(如图像坐标),通常为状态的某种投影。状态转移矩阵描述状态从到的预测模型。观测矩阵将状态投影到观测空间。状态协方差矩阵描述状态的不确定性。过程噪声协方差矩阵模型自身的误差来源(如加速度变化引起的误差)。观测噪声协方差矩阵来自传感器观测的不准确性。卡尔曼增益矩阵结合预测与测量时用的加权因子。

2025-07-22 16:41:50 554

原创 候选框表示及相互转换

在多目标跟踪(MOT)或目标检测任务中,**候选框(Bounding Box)**是用于表示目标位置的关键数据结构。候选框的表示形式有多种,不同算法、库或阶段(如训练、推理)可能会采用不同形式。理解这些表示及其相互转换非常重要。

2025-07-21 12:05:03 407

原创 论《 Joon Sung Park演讲的<由人工智能驱动的人类现实模拟>》

Park 的讲述没有过度推崇或贬低技术,而是提供了一个冷静、启发性的观察视角,适合大众读者理解AI如何以意想不到的方式重构我们对“人类本质”的认知。在人工智能的研究与应用日益扩展的背景下,Joon Sung Park 在其 TED 演讲《A simulation of human reality — powered by AI》中所展示的实验,引发了观众对现实与虚拟交界的全新思考。“人类的行为”是否真的那么独特?他指出,该实验并非在打造一个“更真实的人类”,而是在探索人类行为的边界:哪些行为是可被模拟的?

2025-07-20 23:18:01 888

原创 多目标跟踪算法

多目标跟踪(Multi-Object Tracking,MOT)算法的目标是在视频中(如行人、车辆等),并为每个目标分配一致的 ID。。

2025-07-20 23:16:59 855

原创 多目标跟踪:运动模型

运动模型是一个基于时间序列的目标位置预测方法。它尝试基于目标的历史状态(如位置、速度)来预测其在下一帧中的位置。位置(t) + 速度 → 预测位置(t+1)模型适合场景优点缺点匀速简单场景快速、实现容易不鲁棒Kalman常规视频MOT精度较高、可更新对遮挡敏感粒子滤波高遮挡、非线性鲁棒性高速度慢加速度模型快速运动目标更真实建模参数复杂。

2025-07-20 21:50:40 609

原创 多目标跟踪

多目标跟踪(MOT)是计算机视觉的核心任务,旨在视频中持续跟踪多个目标并保持ID一致。主要流程包括目标检测(YOLO等模型)、目标关联(基于距离、特征等)和轨迹维护。常用算法分为基于检测器+关联器(如DeepSORT、ByteTrack)和端到端深度学习两类。DeepSORT结合外观特征与卡尔曼滤波实现鲁棒跟踪。评估指标包括MOTA、IDF1等,常用数据集有MOT17、UA-DETRAC等,广泛应用于安防、交通分析等领域。代码示例展示了YOLOv5+DeepSORT的行人跟踪实现。

2025-07-20 21:35:37 379

原创 OpenCV : cv2.dnn 模块

cv2.dnn是 OpenCV 的,用于在,执行多种深度学习模型的推理任务。

2025-07-20 16:58:13 446

原创 imutils 工具包

项目内容名称imutils类型图像处理工具库依赖OpenCV (cv2), NumPy作用简化 OpenCV 中常见的图像变换操作安装优点:简化常见图像处理任务(调整大小、旋转、边缘检测等)避免 OpenCV 中冗长调用支持常用图像识别流程(如透视矫正、轮廓排序)限制:不能替代 OpenCV,只是封装部分功能对复杂任务(如图像分割、检测)无直接帮助。

2025-07-20 13:20:44 184

原创 numba即时编译器

属性内容名称numba类型Python 的 JIT 编译器支持后端LLVM(低级虚拟机)适用场景数组计算、循环、数值算法编译方式@jit或@njit装饰器优势代码加速,兼容性高,接近 C 的运行速度Numba 是提升 NumPy 和 Python 计算效率的强力工具:简单易用性能提升巨大支持多线程、GPU不适合数据分析类工具直接加速。

2025-07-19 16:54:35 330

原创 莎士比亚风格的文本生成任务

摘要:莎士比亚风格文本生成是NLP中的风格迁移任务,需模仿其古英语词汇(thou/thee)、倒装句式和五音步韵律等特征。实现方法包括:1)微调GPT等预训练模型;2)基于LSTM从零训练字符级模型。建议使用Project Gutenberg的莎士比亚语料,并加入韵律控制模块增强效果。典型输出如"Thy love hath made mine eyes forget thy sight",展现伊丽莎白时代的诗性语言特征。关键挑战在于准确捕捉早期现代英语的语法变异和戏剧性修辞。

2025-07-18 16:58:31 393

原创 CRF模型

摘要:条件随机场(CRF)是一种序列标注概率图模型,通过全局建模输出标签序列的条件概率,克服了HMM和MEMM的局限性。它在NLP任务中表现优异,支持多种特征组合,但依赖特征工程且训练较慢。现代方法常将CRF与BiLSTM、BERT等神经网络结合,如BiLSTM-CRF和BERT-CRF模型,通过深度特征提取提升性能。典型应用包括命名实体识别,Python实现可使用sklearn-crfsuite库,需自定义特征函数。CRF的核心优势在于序列建模能力,但面临特征工程复杂、计算成本高等挑战。(149字)

2025-07-18 16:54:18 334

原创 DeepSeek-R1:开源推理模型的突破

DeepSeek-R1 是一款基于混合专家(MoE)架构的大语言模型,基于 DeepSeek-V3 开发,拥有6710 亿参数,但每次推理仅激活 370 亿参数,极大地优化了计算效率。它的设计目标是解决复杂推理任务,例如数学问题、编程挑战和逻辑推理,性能可媲美 OpenAI 的 o1 模型。与基础模型 DeepSeek-V3 不同,R1 通过纯强化学习(RL)和多阶段训练(包括两个 RL 阶段和两个监督微调阶段)进行了优化,显著提升了输出的可读性和一致性。DeepSeek-R1 的训练采用了。

2025-07-17 20:01:32 732

原创 DeepSeek

DeepSeek是一家中国 AI 创企,成立于 2023 年,发布了一系列开源的、大规模且低成本的语言模型(自 2023 年底发布首个基础版本以来,DeepSeek 快速迭代,已成为全球开源 LLM(大语言模型)中的领军者。优点内容说明性能领先MMLU、数学、代码等 benchmark 上超越多数开源与闭源模型高度可扩展MoE 架构仅激活部分专家,降低推理成本长文本处理能力强支持高达 128K tokens 文本输入开源与透明度高模型和论文开放供社区使用与研究训练与运行成本低。

2025-07-17 19:51:00 860

原创 GPT-3预训练模型

项目内容发布机构OpenAI发布时间2020 年 6 月模型结构Transformer Decoder-only(仅使用解码器结构)输入方式自回归方式(基于上下文预测下一个 token)预训练任务无监督语言建模(language modeling)主要特点大规模预训练 + 零/少样本泛化能力 + 通用任务提示适应能力(prompting)GPT-3 不仅在自然语言生成方面表现优异,还在翻译、问答、编程、摘要、逻辑推理等多种任务上均具备能力。

2025-07-17 19:43:40 914

原创 GPT-2预训练模型

摘要:GPT-2是OpenAI于2019年发布的Transformer架构自回归语言模型,参数量从1.17亿到15亿不等,具有强大的文本生成能力。它采用Decoder-only结构,支持零样本推理,适用于文本生成、问答等任务,但存在输入长度限制和缺乏双向理解等不足。尽管后续GPT-3等模型性能更强,GPT-2凭借开源特性仍是轻量级应用的首选。HuggingFace平台提供了便捷的调用接口,支持直接使用和领域微调。

2025-07-17 19:38:15 846

原创 XLNet 预训练模型

属性内容模型名称XLNet提出机构发布时间2019 年基础架构Transformer-XL(带有相对位置编码)最大特点Permutation Language Modeling(排列语言建模)主要目标结合 BERT(MLM)和 GPT(Auto-regressive)的优点项目内容模型类型自回归 + 自编码混合型 Transformer特点Permutation LM、Transformer-XL 架构优势保留词序、无信息泄露、捕捉更丰富上下文应用效果。

2025-07-16 21:28:59 637

原创 ERNIE预训练模型

项目内容全称提出者百度 Baidu首次发布2019 年模型结构BERT 改进型,使用 Transformer Encoder 架构主要目标融合先验知识(如实体、词组、句法)进行预训练应用场景分类、匹配、问答、抽取等各类 NLP 任务模型特点内容架构类型主要创新实体级 mask、多任务知识融合代表性任务中文 NLP(分类、匹配、问答)性能表现中文任务优于 BERT 等基础模型是否开源是,部分模型参数可在 Hugging Face 获取。

2025-07-16 21:24:46 607

原创 DeBERTa预训练模型

特性内容全称提出者发布时间2021 年基础架构主要特点解耦注意力机制 + 相对位置编码 + 解码增强模型开源项目内容模型名称DeBERTa提出单位架构类型Encoder-only (BERT 类 Transformer)创新点解耦注意力机制 + 相对位置编码优势精度更高,泛化更强使用推荐推荐用于高精度自然语言理解任务。

2025-07-16 21:20:51 583

原创 T5预训练模型

特性内容提出团队Google Research (Colin Raffel 等)论文名称架构基于 Transformer 的 Encoder-Decoder统一方式输入、输出全部是文本模型名称项目内容核心理念所有 NLP 任务皆转为 Text-to-Text架构预训练应用分类、生成、翻译、摘要、问答、句子重写等工具库支持良好,可直接部署。

2025-07-16 21:16:19 531

原创 长文本预测任务使用BERT构造训练样本

场景推荐策略关键信息在前直接截断前 512信息分布均匀滑动窗口前后重要,中间可舍首尾拼接结构清晰、长文层次式 BERT高效高性能需求Longformer、BigBird、RoBERTa 等。

2025-07-16 20:54:36 390

原创 BERT的MLM任务采用80% 10% 10%的策略的原因

BERT 采用 80%[MASK]模拟真实语言环境,避免模型只学会猜[MASK]提高泛化能力与鲁棒性提供更丰富的学习信号,提高语义建模能力这种比例已被实践验证,在 NLP 预训练中是个极具代表性的设计。如果你有兴趣,我还可以展示一下用 PyTorch 实现这个 masking 策略的代码。是否需要?

2025-07-16 20:48:33 691

原创 GPT-4预训练模型

GPT-4全称为,由 OpenAI 于 2023 年 3 月发布。其核心思想仍然基于自回归 Transformer 解码器架构,但在训练数据、模型参数、能力边界、稳定性和推理能力方面做了大幅优化。项目描述发布机构OpenAI架构类型Transformer Decoder(自回归)支持模态文本 + 图像(多模态)能力类型语言生成、代码生成、数学推理、视觉理解等支持语言多达 26 种以上,表现更均衡项目GPT-4 总览模型定位通用 AI 能力平台代表特征多模态、强逻辑、长上下文。

2025-07-15 23:18:56 888

原创 GPT预训练模型

GPT是一种基于Transformer架构的自回归语言模型,由OpenAI开发。它采用"预训练+微调"模式,在文本生成、对话等NLP任务中表现优异。核心架构为Decoder-Only Transformer,通过自注意力机制建模语言规律。GPT系列从最初的1.1亿参数发展到GPT-4的多模态版本,具备few-shot学习能力。优势包括强大的生成能力和任务泛化性,但也存在计算资源消耗大、长文处理受限等不足。典型应用涵盖对话系统、代码生成等领域,可通过HuggingFace等工具快速部署。相

2025-07-15 21:48:18 851

原创 ELMo模型

属性ELMo 模型解释模型结构双向语言模型(BiLSTM + char-CNN)表达方式每个词根据上下文获得不同的向量应用方式作为词向量输入给下游模型(不可微调参数)优势上下文感知、无 OOV、支持多层加权组合不足模型较重,训练慢,不支持端到端 fine-tunes_j%5Cgamma。

2025-07-15 17:10:02 475

原创 Transformer可以代替seq2seq的原因

Transformer 能够全面替代传统的,主要是因为它在建模能力、效率和可扩展性上全面优于基于 RNN 的 Seq2Seq。以下是原因的详细解析。

2025-07-15 15:02:16 528

原创 Transformer 相比于传统的 RNN优势

Transformer在NLP领域展现出比RNN/LSTM/GRU更强的性能优势。其核心优势包括:完全并行计算能力、更好的长距离依赖建模、多头注意力机制带来的多维语义表达、以及更适合大规模预训练的特性。通过自注意力机制,Transformer能同时处理整个序列,克服了RNN的顺序计算限制,显著提升了训练效率和模型表达能力。这些优势使得Transformer成为BERT、GPT等现代NLP模型的基础架构,并成功应用于机器翻译、文本生成等任务。

2025-07-15 14:56:59 956

原创 Transformer:采用Multi-head Attention的原因和计算规则

h: 注意力头的个数(例如 8)d_k: 每个头的维度,通常总体输出维度保持为d_model名称说明注意力头数 h一般为 8 或 12每个头的维度 dₖ通常 dₖ = d_model / h计算过程对每个头单独计算 Self-Attention并行性所有头同时计算,适合 GPU 并行加速优点多角度理解 token 关系,增强表达力Multi-Head Attention = 多个不同“角度”的 Self-Attention + 拼接 + 映射整合。

2025-07-15 11:51:54 885

原创 Transformer :Self-Attention(自注意力机制)

特性说明全局上下文每个词都能与所有其他词交互位置无关不依赖相对/绝对位置,可与位置编码组合使用并行计算所有 token 同时处理,速度快灵活建模根据不同输入动态学习注意力分布Self-Attention 是 Transformer 模型的核心灵魂,既实现了强大的表达能力,又兼顾了效率。掌握了它,就为理解整个 Transformer 奠定了基础。

2025-07-15 11:05:00 864

原创 Transformer:结构中的Decoder端具体输入

模块输入来源说明左移后的目标序列用于构建输入 token 表示位置索引编码 token 顺序Decoder 自己生成的 token 序列加掩码,防止看未来Encoder 的输出引入源语言语义信息上一步注意力机制的输出非线性转换,提升表达能力。

2025-07-15 10:51:42 466

原创 Transformer:结构及各个子模块的作用

模块作用多头注意力机制提取不同位置之间的依赖关系前馈全连接层对每个 token 向量做非线性加工残差连接保留原始信息,缓解深度训练问题层归一化(LayerNorm)提高训练稳定性,加速模型收敛位置编码添加顺序信息,保留位置信息编码器-解码器注意力解码器获取输入的全局语义表示%20b_2。

2025-07-15 10:40:46 771

原创 Transformer:self-attention公式中添加scaled的原因

项目有缩放(推荐)无缩放(问题)数值稳定性✅ 点积值适中❌ 点积值过大softmax 平滑性✅ 梯度易于传播❌ 梯度消失,训练困难收敛速度✅ 更快❌ 更慢理论依据Transformer 原始论文推荐dkd_kd_kd_kq_ik_i。

2025-07-13 10:45:51 443

原创 为什么投资人工智能?——评Sarah Guo的TED演讲

在2024年1月的TED演讲中,技术专家兼风险投资家Sarah Guo主张,每个人都应投资人工智能(AI),无论是以时间、金钱还是关注度的形式。她认为,AI正处于技术新时代的开端,投资AI不仅适用于专业投资者,也适用于普通人,并分享了一个识别AI机会的框架:关注AI如何提升效率、创造新市场及解决社会问题。Guo强调,AI的潜力在于它能成为个人和企业的“倍增器”,但也警告忽视AI可能导致落后。她提供的数据显示,AI市场正迅速扩展,但她并未详细说明风险,如技术局限或社会影响。本文从Guo的论点、数据支持及潜在争

2025-07-11 22:38:36 270

原创 人工智能如何驱动经济增长?——评Cathie Wood的TED演讲

在2023年12月的TED演讲中,ARK Invest创始人Cathie Wood探讨了人工智能(AI)如何通过与机器人、区块链、能源存储和多组学测序等五大创新平台的协同作用,驱动指数级经济增长。她预测,AI的催化作用将推动全球GDP增长从2-3%加速至6-9%,并显著提升生产力,尤其在自动驾驶出租车等市场,预计未来5-10年将创造8-10万亿美元的收入。Wood认为,技术融合将带来“创造性破坏”,颠覆传统行业,同时催生新的经济机会。尽管她的观点基于技术进步的乐观预期,但也面临风险,如技术普及的滞后、监管限

2025-07-10 22:41:56 693

matlab-R2024b-Windows.exe 安装包

matlab 安装包(最新) 注意:有学生邮箱账号,可以免费(google)

2024-09-25

pycharm 2018.3.5 安装包

pycharm 2018.3.5 安装包+Python开发

2024-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除