自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 解决conda中,无法创建新的环境

Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。

2026-03-06 10:46:24 39

原创 Google Scholar高效搜索论文,一个人顶一个师!

本文摘要介绍了8种文献检索技巧:1.包含全部关键词;2.精确匹配完整短语;3.包含任意关键词;4.排除特定词;5.限定关键词位置;6.按作者检索;7.限定文献来源;8.按时间筛选。最后通过组合检索示例(查找2020年后关于"大语言模型安全"的文献),展示了如何综合运用这些检索技巧。这些方法能帮助研究者更精准地获取所需文献。

2026-02-26 19:19:55 122

原创 AI 大模型时代,拿下这些顶会顶刊就握住了学术入场券,启动!

本文介绍了信息安全与人工智能领域的顶级期刊和会议。信息安全领域包括TIFS、TDSC等顶级期刊,以及CCS、S&P、NDSS、USENIX Security等"四大顶会"。人工智能领域涵盖了AAAI、NeurIPS、CVPR、ICCV、ICML、IJCAI等综合性AI会议,以及ACL、EMNLP等自然语言处理领域的顶级会议。这些出版物和会议代表了各自领域的研究前沿和最高学术水平。

2026-02-26 19:00:13 431

原创 【从 AI 大模型视角,读懂 To C 与 To B 的本质分别】

ToC与ToB业务的核心差异解析 摘要:ToC和ToB是两种截然不同的商业模式。ToC直接面向个人消费者,注重用户体验和情感驱动,典型如微信、抖音等,特点是决策快、用户量大、体验至上。ToB则服务于企业机构,强调理性价值和投资回报,如企业微信、阿里云等,具有决策链长、客户价值高、产品功能优先等特点。两者在用户角色、决策方式、产品设计、营销策略等方面存在本质差异:ToC追求爆款和流量转化,ToB看重解决方案和客户关系。理解这些差异对产品设计、市场营销和创业方向选择至关重要。当前虽有不少企业同时布局ToC和To

2026-02-25 19:05:25 1254

原创 拿捏 3 个超参数,让大模型训练效果原地起飞!

深度学习大模型训练中,学习率、训练轮数和批次大小是最关键的三个超参数。学习率建议:全量微调1e-5到5e-5,LoRA微调1e-4到3e-4;训练轮数根据数据量调整,通常3轮最佳;批次大小取决于显存容量,可使用梯度累积技术优化。合理设置这三个参数能显著提升模型训练效果和稳定性。

2026-02-25 11:24:19 690

原创 《用 STAR 法则讲大模型项目,面试官直接给 Pass 卡!》

摘要:本文介绍如何运用STAR面试法则有效展示大模型项目经验。通过两个具体案例:1)基于DPO算法优化Qwen2.5模型,在单卡RTX5080上实现68%胜率;2)复现DeepSeek R1-Zero推理能力,采用GRPO算法节省50%显存。文章详细拆解了从项目背景、任务目标到具体行动和量化结果的完整叙述框架,并给出面试官可能关注的KL散度约束、GRPO优势等技术细节问题,帮助候选人将复杂技术项目转化为清晰生动的面试故事。

2026-01-27 14:38:42 904

原创 深度学习与大语言模型LLM的区别

摘要:深度学习(DL)是AI的核心技术基础,而大语言模型(LLM)是其顶级应用。DL作为方法论,通过多层神经网络处理各类数据;LLM则专攻文本领域,基于Transformer架构实现通用智能。二者关系可类比为"内燃机技术"与"波音747"——DL提供原理支撑,LLM展现复杂应用。现代AI开发中,DL作为底层工具,而LLM已成为可直接调用的基础设施,使开发者无需从头训练模型,只需进行微调或提示工程即可应用其强大能力。这标志着AI从专用迈向通用,并革新了人机交互方式。

2026-01-18 13:59:44 749 1

原创 深度学习与强化学习的区别

摘要:深度学习与强化学习在AI系统中扮演不同角色:前者负责感知与模式识别(如自动驾驶识别红灯),后者专注于决策优化(如决定刹车动作)。核心区别在于反馈机制(标准答案vs奖惩信号)和数据来源(静态历史数据vs动态交互数据)。深度学习提供基础认知能力,强化学习则实现长期收益最大化。二者通常协同工作,如ChatGPT先用深度学习学习语言,再通过强化学习优化回答策略。本质差异在于:深度学习是"认识世界",强化学习是"学会生存"。

2026-01-18 13:57:40 376

原创 机器学习与深度学习的区别

摘要:机器学习和深度学习是AI领域的核心概念。机器学习是更广泛的范畴,依赖人工特征提取;深度学习作为其子集,通过神经网络自动学习特征。关键区别在于:机器学习适合小数据、解释性强的场景(如银行风控),只需CPU运算;深度学习需要海量数据和GPU支持,擅长处理图像/语音等复杂任务(如人脸识别),但解释性差。选型需综合考虑数据量、任务复杂度及计算资源,结构化数据常用机器学习,非结构化数据多用深度学习。

2026-01-18 13:55:28 626

原创 【sh脚本与Python脚本的区别】

摘要:Shell与Python在系统管理和数据处理中各具优势。Shell作为命令行解释器,擅长调用系统命令和文件管理,通过管道连接外部程序,适合简单任务和系统调度;Python则在虚拟机中运行,支持复杂计算和对象操作,适合数据处理和业务逻辑。Shell处理文本流,Python操作内存对象。数值计算上,Shell需借助外部工具,效率低;Python直接计算,效率高。实际流程中,Shell常作为外层入口进行环境准备和调度,Python作为核心处理引擎。两者分工明确,Shell负责系统交互,Python处理复杂业

2026-01-18 13:50:59 936

原创 《CPU 是法拉利,GPU 是火车?AI 算力的终极比喻来了》

摘要:本文用"超级厨房"比喻解析AI硬件分工:CPU是统筹主厨,GPU是并行切菜团,显存则是关键灶台案板。以7B大模型为例,显存容量决定能否运行(门槛),GPU核心数影响速度(TFLOPS),CPU处理数据供给(防短板),而显存带宽(如HBM)对大规模训练尤为关键。完整流程展示了数据从CPU预处理到GPU计算的流转过程,指出硬件配置需平衡各环节,避免因显存不足或CPU瓶颈导致GPU闲置。理解这些硬件关联可有效避免AI训练中的配置陷阱。

2026-01-18 13:48:00 778

原创 《AI Agent 到底是什么?看完这篇你就懂大模型的下一个风口》

文章摘要: AIAgent(智能体)实现了从"缸中之脑"到"全能管家"的进化,为LLM配备了感知、工具和规划能力。其核心采用"双轨制"逻辑:先评估任务复杂度,再分流执行简单对话或复杂任务。对于复杂任务,Agent能自主拆解目标、调用工具并整合结果,具备自我纠错能力。这种架构如同操作系统,将LLM的推理能力转化为实际执行力,突破了数字与物理世界的边界,使AI不仅能"知"更能"行"。图片示例展示了从指令输入到闭环

2026-01-17 16:20:30 968

原创 《从 “胡言乱语” 到 “有理有据”:RAG 如何拯救大模型的致命缺陷》

摘要:RAG(检索增强生成)技术通过"开卷考试"模式解决大模型的时效性和幻觉问题。其核心流程分为三阶段:1)索引阶段将文档切片并向量化存储;2)检索阶段计算用户问题与文档片段的相似度;3)生成阶段结合检索结果输出答案。RAG具有四大优势:避免幻觉、保持时效性、保护数据隐私、确保答案可溯源。该技术作为用户与大模型间的中间层,通过检索外部知识库增强提示词,约束模型仅基于最新资料作答,已成为企业级AI应用的标配解决方案。

2026-01-17 16:03:43 723

原创 【从 “完形填空”(MLM) 到 “即兴演讲”(CLM):揭秘 GPT 碾压 BERT 的底层逻辑】

摘要:NLP领域的关键路线之争是BERT的双向理解(MLM)与GPT的单向生成(CLM)。BERT通过完形填空任务训练,能双向分析但生成能力弱;GPT通过文字接龙任务训练,专注单向生成但通用性更强。GPT胜出的三大原因:1)生成任务兼容理解任务;2)数据利用率更高;3)训练与推理场景一致。最终,当模型规模足够大时,GPT不仅保持生成优势,理解能力也超越BERT,使CLM路线成为大模型时代的主流选择。

2026-01-14 18:29:23 1020

原创 GPT 能写代码、会聊天?全靠这个叫 CLM 的 “接龙游戏”

摘要:因果语言建模(CLM)是GPT等大语言模型的核心训练方法,通过预测下一个词实现自回归学习。其特点包括单向性预测、概率链式计算,并具有生成能力强、支持零样本学习等优势。CLM在模型训练中作为核心目标函数,在推理时则作为文本生成引擎,贯穿预训练、微调和推理全过程。该方法利用无标注数据自主学习,通过海量文本训练掌握语言规律和世界知识,最终实现智能对话和内容生成功能。(149字)

2026-01-14 17:20:21 1123

原创 外接键盘win和alt键功能互换位置,3秒解决!

摘要:长按Fn+Esc键3秒可快速恢复键盘默认功能键设置,操作简单直接。该方法适用于需要重置功能键配置的情况,提供了一种便捷的解决方案。

2026-01-13 09:51:36 2476 2

原创 用 MSE 训分类模型?交叉熵:你这是在给模型 “下慢性毒药”

摘要:交叉熵损失函数是分类任务的核心工具,通过衡量预测分布与真实分布的差异来评估模型性能。其核心逻辑是利用对数函数特性,对错误预测施加更大惩罚。相比均方误差,交叉熵配合Softmax能避免梯度消失问题,错误越大则梯度越大,收敛更快。该函数在训练阶段处于关键位置,将模型表现量化为损失值,指导参数调整方向。在入侵检测等多分类任务及语言模型预测中具有重要作用,既实现最大似然估计,又保证优化过程的凸性,促进模型快速收敛到最优解。(149字)

2026-01-12 23:21:48 772

原创 混淆矩阵玩不转?场景里它的 “正反” 格式能坑哭算法工程师——两分钟带你搞明白

摘要:混淆矩阵是评估机器学习模型的核心工具,包含TP、TN、FP、FN四种判断结果。在安全领域(如入侵检测),正样本通常代表攻击流量,负样本为正常流量。混淆矩阵存在两种常见格式:理论标准格式(正例在前)和Python sklearn格式(负例在前)。关键指标如精确率(Precision)和召回率(Recall)存在权衡关系,安全场景更关注高召回率(减少漏报)。F1分数适合处理样本不平衡问题,而准确率(Accuracy)在极端不平衡时可能产生误导。这些指标用于模型评估、阈值调整和优化方向指导,在安全应用中需平

2026-01-12 22:48:53 1089

原创 知识蒸馏封神密码:KL 散度如何让 “学生” 偷师 “老师” 的暗知识?

KL 散度(也称相对熵)用于衡量两个概率分布之间的差异。假设我们要用一个分布(学生模型的预测)来近似另一个分布(教师模型的真实分布),KL 散度计算的就是这种近似过程中带来的信息损失。在深度学习优化中,因为教师分布固定,最小化 KL 散度等价于最小化交叉熵。维度详细说明位置处于模型训练阶段 (Training Phase)。具体来说,是在计算 Loss 反向传播之前。输入1. 教师模型对当前 Batch 图片的 Logits。2. 学生模型对同一 Batch 图片的 Logits。

2026-01-11 14:11:17 1129

原创 大模型 “瘦身” 黑科技:DeepSeek MLA 靠 2 个矩阵,把显存砍半还不丢性能?

摘要:DeepSeek的MLA和LoRA技术通过低秩分解实现高效参数压缩,将高维特征向量压缩为少量"精华数字"存储,使用时再还原。这一过程利用压缩器和生成器矩阵:前者提取核心特征(如从4维压至2维),后者恢复完整维度。该技术基于"低秩假设",在节省50%显存的同时保持计算效率,使大模型兼具轻量化和高性能特性。典型场景下,输入向量经过降维-升维处理后,能完整保留原始语义信息。

2026-01-08 22:17:32 1051

原创 DeepSeek 爆火的 “黑魔法”:MLA 让大模型显存直接省 75%,这操作太秀了!

DeepSeek的MLA(多头潜在注意力)机制通过创新性的压缩存储方式大幅降低显存占用。与传统MHA(多头注意力)需要存储完整的K/V值不同,MLA将输入压缩为2个数的"压缩包"存储,利用矩阵结合律实现计算时无需还原原始数据。这种设计将显存占用降至MHA的1/4,同时保持相近性能表现。在初始化方面,预训练阶段采用标准初始化保证模型学习能力,而微调阶段则采用LoRA的特殊初始化策略(矩阵A随机初始化、矩阵B零初始化)确保初始行为与原始模型一致。这种"既要显存省、又要性能稳&quo

2026-01-08 17:34:04 965

原创 三分钟搞懂:Transformer 编解码器是如何让 “我爱你” 变成 “I love you” 的?

Transformer模型通过编码器-解码器结构实现翻译任务:编码器并行处理输入文本(如中文"我爱你"),通过嵌入、位置编码和注意力机制提取语义信息;解码器则自回归生成输出(如英文"I love you"),每步基于已生成内容和编码器提供的语义进行预测。核心在于编码器的全局理解能力和解码器的逐步生成机制,二者通过交叉注意力实现语义对齐。整个过程展现了Transformer并行编码与串行解码的协同机制。

2026-01-06 11:54:25 1009

原创 两分钟手搓Transformer 的 “开挂神器”:多头注意力凭啥能让模型看懂 “一词多义”?

摘要:多头注意力机制(MHA)通过多个"专家"从不同角度分析输入数据,解决了单头注意力(Single-Head)的局限性。其核心在于将输入向量切分到不同表示子空间,让模型同时学习句法、语义、位置等多种关系。计算过程包括线性投影、独立多头计算、拼接和最终变换,输出包含上下文信息的新词向量。MHA的优势在于扩展模型能力边界(学习多种关系)、增强鲁棒性(综合不同理解)以及保持输入输出形状一致(便于堆叠)。相比单头注意力只能捕捉单一关系,MHA能更全面理解词语间的复杂关联,如同"动态身

2026-01-06 09:33:04 650

原创 为什么 Attention 计算要除以根号dk

摘要 在注意力机制中,将点积结果除以√d的主要目的是为了控制梯度传播。当维度较高时,点积值会变得过大,导致Softmax函数输出极端化(接近0或1),造成梯度消失问题。通过缩放处理,相当于将原始分数调整到合理范围,使Softmax能更平衡地分配注意力权重,保留有效的梯度信息。这类似于考试评分时采用百分制而非原始总分,避免因绝对分差过大而失去对相对差异的感知。该操作确保了模型在训练过程中能够稳定学习不同位置间的关系。

2026-01-05 11:45:38 260

原创 Encoder 与 Decoder 中 Attention 的区别?Mask Attention 是如何实现的?

摘要:Transformer模型中,编码器(Encoder)采用双向注意力机制,可同时分析上下文信息,如区分"Apple"在不同语境中的含义;解码器(Decoder)则使用带掩码的单向注意力,确保生成内容时只能基于已生成部分,防止未来信息泄露。掩码通过在相似度分数计算阶段添加负无穷值实现,使模型保持严格的因果性。这种机制使编码器像阅读理解(全局分析),解码器像即兴演讲(逐步生成),是保证生成模型合理性的关键技术。

2026-01-05 10:43:08 500

原创 死磕 Transformer:手推 Self-Attention 与 Masked Attention 的本质区别(面试官问的都在这)

本文介绍了掩码自注意力机制的原理和应用。在解码器生成序列时,为避免模型看到未来信息,需要在Softmax前对注意力分数矩阵施加上三角掩码(设为负无穷),从而强制未来位置的权重为零。这种设计模拟了人类说话时"不知下文"的特点,确保了生成的因果性。文章详细阐述了掩码自注意力的计算过程,包括掩码施加、Softmax处理及最终输出计算等关键步骤。

2026-01-03 10:38:06 346

原创 三分钟手算 Self-Attention(Transformer 核心解密)

本文通过真实模拟数据演示了Self-Attention机制的计算过程,重点解释了Query(Q)和Key(K)必须不同的原因。当Q和K不同时,才能实现"动词找名词"等语义匹配,而非简单查找相同词。文章详细展示了从输入到输出的完整计算步骤,并解读了最终输出向量的深层含义:新向量融合了上下文信息,使单词获得语境化的表征。例如"I"的向量会包含"you"的信息,这正是Transformer理解上下文关系的核心机制。

2025-12-31 15:28:16 950

原创 3分钟带你手搓 Transformer 注意力机制——原理+数值全过程详解

本文通过"查字典"的比喻解析Transformer的注意力机制。Query(Q)代表查询条件,Key(K)是索引标签,Value(V)对应具体内容。注意力机制通过计算Q与K的相似度,对V进行加权融合。数值演练展示了处理"fruit"时,模型会重点关注"apple"(权重0.79),少量关注"banana"(权重0.17),几乎忽略"chair"(权重0.04),最终输出接近apple但融合少量banana特征

2025-12-31 11:51:15 1210

原创 镜像站也能被限流?用 Unsloth 踩坑实录:加个 Hugging Face Token,下载速度直接起飞

摘要:在使用Unsloth微调模型时,从HuggingFace下载模型遇到IP限制问题(Error 429)。主要原因是匿名用户频繁请求导致IP被限流。解决方法包括:1)获取HuggingFace的Read权限Token,添加到代码中(设置HF_TOKEN环境变量);2)临时方案如更换IP或等待1小时自动解除限制。推荐使用Token方法,可避免后续下载被限流。关键代码修改顺序:先设置镜像源HF_ENDPOINT,再设置HF_TOKEN,最后导入unsloth模块。

2025-12-30 15:22:19 2220

原创 Python 版本升降级的后悔药——关键时候能救命

每天一个小知识,关键时候能救命,最有用的一集。在做AI项目时,总免不了与虚拟环境和各种库斗智斗勇,我就是在无意中将conda某env环境Python升级3.10了,导致环境直接崩塌,各种报错。但如果我把Python版本降到3.9,还会还原原来的环境吗。

2025-12-29 20:28:08 759

原创 未来的两个风口?论如何将大模型与车联网结合!

未来的两个风口?论如何将大模型与车联网结合!

2025-03-11 16:47:57 794

原创 如何使用PyCharm连接服务器GPU?四步搞定!

如何使用PyCharm连接服务器GPU?四步搞定!

2025-03-11 16:44:24 1327

原创 蓝桥杯---有效的括号(Python)

class Solution: def isValid(self, s: str) -> bool: if len(s) % 2 == 1: return False #当 s 长为奇数时,为错误 pairs = { ")": "(", "]": "[", "}": "{"...

2022-03-21 20:37:18 379

原创 凯撒加密与反解密(反解密要知道关键字K)

import stringdef kaisa(s, k):lower = string.ascii_lowercase #小写字母upper = string.ascii_uppercase #大写字母before = string.ascii_lettersafter = lower[k:] + lower[:k] + upper[k:] + upper[:k]table = ''.maketrans(before, after) ...

2021-11-17 11:24:58 1178

原创 (三行正则表达式) 编写程序,用户输入一段英文,然后输出这段英文中所有长度为3个字母的单词。

import resr=input('请输入一段英文:')print(re.findall(r'\b[a-zA-Z]{3}\b',sr))

2021-11-17 11:14:57 6782

原创 (正则表达式三行) 假设有一段英文,其中有单词中间的字母i误写为I,请编写程序进行纠正。

import resr=input('请输入一段英文:')print(re.sub(r'\BI\B','i',sr))

2021-11-17 11:02:46 4399

原创 (正则表达式三行完成) 假设有一段英文,其中有单独的字母I误写为i,请编写程序进行纠正。

import resr=input('请输入一段英文:')print(re.sub('i ','I ',sr))

2021-11-17 10:27:14 4249 2

原创 假设有一段英文,其中有单独的字母I误写为i,请编写程序进行纠正。

your_str=input("请输入一段英文:")y_lst= your_str.split(" ")for i in range(len(y_lst)): if y_lst[i] == "i": y_lst[i] = "I"print(" ".join(y_lst))

2021-11-10 11:02:19 1576

原创 假设有一段英文,其中有单独的字母I误写为i,请编写程序进行纠正。

st=input('请输入一串字符串:')print(st) #输出用户输入的字符串my_list0=list(st) #将字符串转换成列表my_list1=[] #定义空列表for i in range(len(my_list0)): .

2021-11-03 15:26:34 4088

原创 假设有一段英文,其中有的字母I误写为i,请编写程序进行纠正。

st=input('请输入一串字符串:')print(st) #输出用户输入的字符串my_list0=list(st) #将字符串转换成列表my_list1=[] #定义空列表for i in range(len(my_list0)): .

2021-11-03 12:32:54 2854

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除