- 博客(64)
- 收藏
- 关注
原创 Prompt提示词工程概述
掌握提示词工程:提升AI对话效率的关键技能 摘要:本文系统介绍了提升与AI对话效果的提示词工程方法。核心要素包括:角色设定、任务明确性、上下文提供和格式规范。中级技巧涵盖分步思考、少样本学习和自我验证。高级技术则涉及结构化模板、任务分解和动态交互。文章还提供了编程辅助、内容创作和学习研究等场景的实战案例,并指出了常见误区。掌握这些方法能显著提升与AI的沟通效率,获取更精准的响应。提示词工程的关键在于培养系统性思维和持续优化的习惯。
2025-11-13 20:01:38
792
1
原创 LangChain使用概述
摘要:LangChain是2022年兴起的开源大模型应用开发框架,GitHub星标112k,月下载量超5900万次。本文从框架认知、环境搭建到实战开发,系统介绍LangChain的核心功能。其模块化设计包含六大组件:Model I/O、Chains、Memory、Agents、Retrieval和Callbacks,支持从简单问答到复杂智能体的开发需求。通过民法典知识库问答系统案例,演示了RAG技术实现流程。LangChain显著降低了大模型应用开发门槛,适用于文档助手、企业知识库等场景,是当前LLM生态中
2025-11-07 09:19:57
960
原创 软标签蒸馏-温度T的作用
知识蒸馏中的温度参数T通过软化教师模型的概率分布来揭示"暗知识"。当T>1时,缩放后的概率分布更平滑,保留了类别间的相对置信度信息,如"狗"与相似类别"狼"的概率差异。这种软化的概率分布为学生模型提供了更丰富、明确的监督信号,使其不仅学习正确分类,还能掌握类别间的相似关系,从而提升泛化能力。在损失计算时,T²用于梯度归一化,保持超参数调节的独立性。温度T是有效传递教师模型隐含知识的关键机制。
2025-10-29 10:05:49
909
原创 NLP相关面试题
本文摘要: 深度学习技术解析:本文系统阐述了深度学习中的关键技术原理与应用。重点分析了残差连接在深层网络训练中的优化作用,Transformer架构中多头注意力机制的设计原理及其降维处理策略。详细比较了FastText与Word2Vec、BERT与Transformer的差异,探讨了BERT模型的非线性来源。同时介绍了模型训练的标准流程,以及LSTM通过门控机制解决梯度消失/爆炸问题的方法。文中还涉及了lambda表达式的应用场景和Transformer中的两种掩码机制。这些技术要点构成了当前深度学习模型的
2025-10-28 08:58:34
763
原创 TokenPony使用教程
小马算力(TokenPony)是AI模型聚合服务平台,提供统一API接口接入Deepseek、阿里通义千问等优质大模型。主要特点:多模型集成、兼容OpenAI规范、高性价比(最低¥7.2/百万Tokens)、快速响应(<500ms)。使用流程:注册获取API Key→环境配置→基础API调用。支持进阶功能:模型选择、参数优化、流式响应等,适用于代码开发、内容创作等场景,并提供成本控制建议。
2025-10-25 10:27:49
855
原创 BERT,GPT,ELMO模型对比
本文深入解析了BERT、GPT和ELMo三大预训练语言模型。主要内容包括:1)BERT的核心架构与预训练任务(MLM、NSP)技术细节;2)BERT系列模型(如ALBERT、RoBERTa)的技术演进;3)ELMo的双向LSTM架构与字符级CNN编码实现;4)GPT的Transformer Decoder改造与训练策略;5)三大模型在架构、注意力机制、性能等方面的对比分析;6)实际应用中的模型选择策略与微调最佳实践;7)模型压缩与多模态扩展等进阶主题。文章通过参数配置、代码示例等方式,系统介绍了各模型的技术
2025-10-21 19:42:42
1348
原创 BERT-微调任务
本文系统梳理了NLP核心知识,重点解析了BERT模型及其应用。主要内容包括:1)两种微调任务:MLM(完形填空)和NSP(下一句预测)的实现流程与模型设计;2)NLP标准评估数据集体系;3)BERT模型架构详解,包括其三层结构、双向Transformer编码器和预训练任务机制;4)与GPT模型的对比分析。文章强调BERT的双向性创新和"预训练+微调"范式优势,同时指出其在中文处理等方面的局限。通过理论原理与实践代码相结合的方式,为NLP学习提供了系统性的知识框架。
2025-10-20 09:03:15
804
原创 Transformer-解码器_编码器部分
本文详细解析了Transformer模型的核心组件及实现细节。模型首先通过词嵌入和位置编码将文本转化为包含语义和位置信息的向量;然后使用多头注意力机制捕捉序列中的依赖关系,其中编码器由多层自注意力和前馈网络组成,解码器额外引入编码器-解码器注意力;最后通过生成器输出词表概率分布。关键设计包括:1)缩放点积注意力计算;2)残差连接和层归一化;3)位置编码注入序列顺序信息;4)掩码机制控制注意力范围。这些组件协同工作,使Transformer能够高效处理序列任务。
2025-10-15 16:16:19
1072
原创 Transformer-输入部分
本文介绍了Transformer模型输入部分的实现,主要包括文本嵌入层和位置编码器两个组件。文本嵌入层(Embeddings)通过nn.Embedding将词汇索引转换为向量表示,并乘以sqrt(d_model)进行数值缩放。位置编码器(PositionalEncoding)采用正弦余弦函数生成位置信息,通过加法与词向量融合,弥补模型对位置不敏感的缺陷。两种组件共同作用,将离散的词汇索引转换为包含语义和位置信息的连续向量表示,为后续的编码器-解码器结构提供高质量输入。可视化分析表明,该设计能有效区分不同位置
2025-10-14 20:05:30
957
原创 RNN-seq2seq 英译法案例
本文详细介绍了基于RNN和Seq2Seq模型的英译法实现方案。Seq2Seq模型通过编码器-解码器架构完成序列转换任务,本案例采用GRU单元实现,并引入注意力机制提升长序列处理能力。文章系统阐述了数据预处理、模型构建(包含基础解码器和注意力解码器实现)、训练策略(如TeacherForcing)以及评估方法,重点分析了注意力可视化效果和典型错误案例。最后总结了核心概念(GRU、Attention等)和超参数设置建议,探讨了双向GRU、BeamSearch等扩展方向。该方案在10,599条英法平行语料上实现有
2025-10-10 19:08:20
1364
原创 NLP-注意力机制
摘要:注意力机制是一种动态分配权重聚焦关键信息的技术,通过Q(查询)、K(键)、V(值)三要素实现并行高效处理。相比传统RNN,它解决了长序列依赖和重点捕捉问题,核心计算包括相似度计算、权重归一化和加权求和三步骤。在Seq2Seq架构中,注意力机制通过解码器查询与编码器状态交互生成上下文向量。主要类型包括一般注意力和自注意力,计算方式有点积、相加和拼接三种。该机制广泛应用于NLP、视觉和多模态任务,其核心价值在于模拟人类认知的选择性关注能力,显著提升模型效率和准确性。
2025-10-09 09:55:47
776
原创 RNN、LSTM与GRU模型
本文系统比较了三种循环神经网络模型:传统RNN、LSTM和GRU。RNN结构简单但存在长序列记忆缺陷;LSTM通过门控机制解决了梯度问题,但计算复杂度高;GRU在保持性能的同时简化了结构。文章详细分析了各模型的原理、PyTorch实现、维度变化及优缺点,并提供了结构对比表和性能评分(RNN短序列处理★★★★★,LSTM长序列处理★★★★★)。建议根据任务复杂度选择模型:简单任务用RNN/GRU,复杂任务用LSTM,资源受限选GRU。文中还包含超参数调优、梯度处理等实战建议,为序列建模任务提供了全面的技术参考
2025-10-07 14:19:53
1311
原创 Transformer诞生背景与核心突破
Transformer在2017年由Google团队提出,彻底改变了自然语言处理领域的格局。其革命性在于完全基于注意力机制,摒弃了传统的RNN和CNN结构,解决了序列建模中的并行化、长程依赖等核心问题。相比传统模型,Transformer具有显著优势:在WMT翻译任务上取得突破性成绩,训练效率大幅提升(8个GPU仅需3.5天)。该架构通过自注意力机制实现了高度并行化计算、动态评估序列关系、保留完整序列信息等能力。Transformer不仅提升了机器翻译性能,更为BERT、GPT等大模型奠定了基础,真正体现了
2025-09-29 08:43:45
1150
原创 NLP基础
本文介绍了自然语言处理(NLP)课程安排及文本预处理技术。课程12天内容涵盖RNN、注意力机制、Transformer等核心技术。文章详细讲解了NLP发展历程、应用场景,并重点阐述文本预处理方法,包括分词、词性标注、命名实体识别等基本处理,以及One-Hot、Word2Vec、WordEmbedding三种文本表示技术。其中,Word2Vec能捕捉语义关系,WordEmbedding作为神经网络层参与训练,是当前主流方法。文本预处理质量直接影响模型性能,需根据任务需求选择合适的表示方法。
2025-09-27 09:22:06
1235
原创 深度学习-RNN循环神经网络
本文介绍了自然语言处理(NLP)的基础知识,重点讲解了循环神经网络(RNN)在文本生成中的应用。主要内容包括:NLP基本概念(语料、词表、词向量等);词嵌入层的作用与实现;RNN的网络结构、数学表达和PyTorch实现;并以周杰伦歌词生成为例,详细说明了数据预处理、模型构建、训练过程和文本生成的完整流程。文章最后总结了RNN处理序列数据的优势,以及词嵌入和文本生成在NLP中的重要性。
2025-09-26 08:49:06
782
原创 深度学习-卷积神经网络
本文总结了卷积神经网络(CNN)的核心知识点:1. 图像基础知识,包括像素表示、RGB通道和图像处理;2. CNN由卷积层、池化层和全连接层组成,卷积层通过滑动窗口提取特征,池化层降维;3. 详细讲解了卷积计算原理、多通道处理、填充与步长设置,以及特征图尺寸计算公式;4. 介绍了PyTorch实现卷积和池化的API;5. 以CIFAR10分类为例说明CNN应用,并给出提高准确率的优化建议。CNN凭借自动特征提取能力,在图像处理任务中具有显著优势。
2025-09-25 08:36:10
1202
原创 深度学习-神经网络(下篇)
本文系统介绍了深度学习中的核心组件:损失函数用于衡量预测误差(如交叉熵用于分类、L1/L2用于回归);优化方法包括梯度下降变体(Momentum、Adam等)和学习率衰减策略;正则化技术如Dropout和BN层可防止过拟合。最后通过手机价格分类案例,展示了从数据准备、模型构建到训练评估的全流程,并提供了模型调优方向(调整网络结构、优化器等)。这些技术需要综合运用才能构建高性能的神经网络模型。
2025-09-19 17:39:25
1545
1
原创 深度学习-神经网络(上篇)
这篇技术文档系统地介绍了神经网络的核心概念与应用要点。主要内容包括:1)神经网络的基本结构和运行原理,对比了生物神经元与人工神经元的工作机制;2)深度学习与传统机器学习的区别,强调自动特征提取的优势;3)常用激活函数(Sigmoid、Tanh、ReLU、Softmax)的特性、优缺点及适用场景;4)参数初始化的多种方法及选择策略,重点推荐Kaiming和Xavier初始化;5)基于PyTorch的模型搭建流程与参数计算方法;6)神经网络在精度和泛化能力方面的优势,以及可解释性差、计算成本高等局限性。文档内容
2025-09-18 19:40:20
1629
原创 深度学习-PyTorch基本使用
本文介绍了PyTorch深度学习框架的基础操作与应用。主要内容包括:1)PyTorch安装与环境配置;2)张量的创建、属性和基本运算(数学运算、统计、索引、形状操作);3)自动微分机制的原理与实现;4)以线性回归为例的完整模型开发流程,涵盖数据准备、模型定义、训练配置与结果评估。文章重点讲解了PyTorch的核心特性,如动态计算图、张量操作和自动微分,并提供了详细的代码示例,帮助读者快速掌握PyTorch的基本使用方法。
2025-09-16 20:20:58
1381
原创 深度学习-概述
摘要:深度学习是机器学习的重要分支,通过多层神经网络实现自动特征提取和端到端学习。其发展历经三次AI浪潮,2012年后因AlexNet等突破引领技术革命。核心优势在于处理非结构化数据的高精度,但存在可解释性差、资源消耗大等局限。应用涵盖计算机视觉、自然语言处理等领域。学习建议强调数学基础、实践项目和持续跟踪前沿进展,同时保持批判性思维。
2025-09-15 17:03:45
1122
原创 机器学习项目-南方电网电力负荷预测
本项目针对南方电网负荷预测需求,开发了一套基于XGBoost算法的短期电力负荷预测系统。通过精细化的时间特征提取(24小时+12个月份)和历史负荷特征(滞后1-3小时及昨日同时刻)构建,结合网格搜索参数优化,实现了1.9%的平均绝对误差,优于传统ARIMA模型。系统采用模块化设计,完整覆盖数据预处理到预测可视化全流程,能有效捕捉负荷的日内双峰特性和季节周期变化。项目验证了机器学习方法在电力负荷预测中的优势,特别在非线性模式识别方面表现突出。未来计划引入气象数据和集成学习模型,进一步提升极端场景下的预测精度。
2025-09-13 09:22:18
1588
原创 机器学习-聚类
本文介绍了聚类算法的基础概念及其应用,重点解析K-means算法的实现流程和评估方法。主要内容包括:1)聚类定义与核心目标,强调相似度计算对结果的影响;2)K-means算法的API使用和迭代优化过程;3)三种评估方法(SSE、轮廓系数、CH指数)的原理与应用场景;4)客户价值分析实战案例,展示从数据预处理到结果可视化的完整流程;5)常见误区提示,如相似度衡量选择、K-means的局限性等。文章最后提供了核心公式速查表,帮助读者快速掌握关键计算指标。
2025-09-09 18:46:11
1675
2
原创 聚类算法-面试题
摘要:聚类算法是一种无监督学习算法,通过样本相似性自动分组,区别于依赖已知标签的分类算法。K-means算法实现流程包括:确定K值、初始化质心、分配样本、更新质心直至收敛。常用评估指标有SSE(越小越好)、肘部法(找拐点)、轮廓系数(越大越好)和CH指数(越高越好)。这些指标帮助衡量聚类效果,平衡簇内紧密性和簇间分离性。
2025-09-08 12:00:00
1799
原创 机器学习-集成学习
集成学习核心原理与实践摘要 集成学习通过组合多个弱学习器构建强预测模型,分为Bagging(如随机森林)和Boosting(如Adaboost、GBDT、XGBoost)两大范式。 Bagging:通过Bootstrap抽样(63.2%样本)和特征随机性降低方差,并行训练基学习器,适用于高方差场景(如随机森林)。 Boosting:串行训练,动态调整样本权重(关注错分样本),通过梯度下降(GBDT)或二阶泰勒展开(XGBoost)降低偏差,需控制学习率防过拟合。 关键区别:Bagging降低方差,Boost
2025-09-08 09:55:37
1418
原创 集成学习-面试题
本文对比了集成学习的两类主要方法:Bagging和Boosting。Bagging通过并行训练多个独立弱学习器(如随机森林)并平权投票,旨在降低方差;而Boosting采用串行训练(如Adaboost、GBDT),通过加权错误样本迭代和梯度优化(GBDT采用负梯度拟合)来提升模型。重点解析了Adaboost的四步构建流程(权重初始化、迭代训练、样本权重更新、组合弱学习器)以及GBDT与随机森林的核心差异(残差学习vs双重随机性)。文中强调GBDT的创新在于用梯度下降处理任意损失函数,并指出XGBoost在G
2025-09-07 12:00:00
501
原创 机器学习-决策树
决策树是一种模拟人类决策过程的树形结构,常用于分类和回归任务。核心算法包括ID3(信息增益)、C4.5(信息增益率)和CART(基尼指数)。决策树通过计算特征的信息熵、基尼指数等指标选择最优分裂点,具有可解释性强、无需特征缩放等优点,但容易过拟合。可通过预剪枝和后剪枝技术提升泛化能力。在泰坦尼克生存预测和房价预测等案例中,决策树展现了良好的性能。实际应用中需注意连续特征处理和过拟合问题。
2025-09-06 19:36:45
1644
3
原创 决策树-面试题
决策树是一种树形分类模型,通过特征判断序列逐步决策,最终到达分类结果的叶子节点。关键概念包括熵(衡量数据不确定性,指导特征选择)和基尼指数(用于CART算法)。ID3/C4.5与CART的主要区别在于任务支持(CART支持回归)、树结构(CART为二叉树)和分裂准则。剪枝用于防止过拟合,分为预剪枝(提前停止分裂)和后剪枝(生成完整树后修剪)。核心要点是熵/基尼指数指导特征选择,CART的特色在于二叉树和回归能力,剪枝本质是平衡模型复杂度与泛化性能。
2025-09-05 09:00:00
916
原创 逻辑回归-面试题
逻辑回归是一种用于二分类问题的模型,通过计算特征加权和并应用Sigmoid函数输出概率值,设定阈值进行分类。混淆矩阵包含TP、TN、FP、FN四个元素,用于评估分类性能。精确率(TP/(TP+FP))反映模型预测正例的准确性,召回率(TP/(TP+FN))衡量识别正例的覆盖能力。ROC曲线横轴为假正率(FPR),纵轴为真正率(TPR),曲线上的点对应不同阈值下的分类性能。AUC(0-1)表示ROC曲线下面积,AUC=1为完美分类,AUC=0.5相当于随机猜测,AUC=0表示完全错误分类。
2025-09-04 12:00:00
1031
原创 机器学习-逻辑回归
逻辑回归是一种用于二分类问题的统计学习方法,通过Sigmoid函数将线性结果映射为概率值(0~1)。核心原理包括极大似然估计和对数损失函数,采用梯度下降优化参数。应用场景涵盖金融风控、医疗诊断等领域。Python实现需注意参数配置(solver、penalty等),评估指标包括精确率、召回率、F1值和AUC。案例实践表明,月合约和光纤服务用户具有较高流失风险。该模型适用于处理二分类问题,但样本不均衡时需重点关注召回率指标。
2025-09-03 19:44:06
1354
原创 线性回归-面试题
本文介绍了机器学习中的损失函数及其相关概念。损失函数用于衡量模型预测值与真实值的差异,通过最小化损失函数寻找最优参数。文章详细对比了MSE、MAE、RMSE三种回归损失函数的定义、特点和适用场景,并分析了线性回归求解最优参数的两种方法:解析法(正规方程)和迭代法(梯度下降),比较了它们的优缺点。此外,还讲解了三种梯度下降类型(BGD、SGD、Mini-Batch GD)的特点,以及学习率设置不当的影响。最后,文章阐述了欠拟合和过拟合的定义、原因及解决方法,并对比了L1和L2正则化的区别。
2025-09-02 09:21:32
1433
原创 机器学习概述-面试题
人工智能三大概念与机器学习核心流程 人工智能(AI)旨在通过计算机模拟人类智能,机器学习(ML)是其实现路径,通过数据自动学习规律(如房价预测模型),深度学习(DL)则是ML的子集,利用神经网络处理复杂任务(如图像识别)。 机器学习关键要素 • 数据基础:样本(单条数据)、特征(属性列)、标签(预测目标)构成数据集,需划分为训练集(建模)和测试集(评估)。 • 算法分类:监督学习(带标签,分回归/分类)、无监督学习(聚类)、半监督学习(部分标
2025-09-01 08:40:55
1026
原创 KNN算法常见面试题
摘要: KNN算法基于“物以类聚”思想,通过计算新样本与训练集的最近邻(K个)进行预测(分类采用投票,回归采用均值)。K值选择需权衡:过小易过拟合,过大易欠拟合,通常通过交叉验证选取奇数。特征预处理(标准化/归一化)消除量纲影响,标准化更通用。模型优化常用网格搜索结合交叉验证(GridSearchCV),系统调参并评估泛化性能。KNN无需显式训练,但计算复杂度高,适合小规模数据。
2025-08-31 08:31:08
674
原创 机器学习-线性回归
本文系统解析线性回归的理论与实践,涵盖基础理论、数学原理、模型评估和工业应用。基础部分介绍线性回归的本质、分类及应用场景;数学原理重点讨论损失函数优化和梯度下降算法;模型评估强调误差指标和过拟合防范;工业实践部分提供特征工程、正则化等实用技巧。文章还探讨了前沿应用如联邦学习和贝叶斯回归,为数据科学从业者提供全面的线性回归技术指南。
2025-08-29 21:32:27
1142
原创 机器学习-KNN算法
KNN算法是一种基于距离的分类和回归方法,通过计算样本与k个最近邻的距离进行预测。关键要素包括:k值选择(需平衡过拟合与欠拟合)、距离度量(欧氏/曼哈顿距离等)、特征标准化预处理(提高模型稳定性)。应用时需注意数据预处理、参数调优(网格搜索+交叉验证)和评估指标选择。算法简单直观但计算量大,适合小规模数据。
2025-08-28 19:44:29
1303
原创 算法练习-合并两个有序数组
文章摘要:合并两个有序数组问题要求将nums2合并到nums1中且不新建数组。提供两种解法:1)简单合并后排序(时间复杂度O((m+n)log(m+n))),适合理解但不高效;2)双指针法(时间复杂度O(m+n)),从后往前比较元素并填充,利用有序特性最高效。重点推荐双指针法,需注意处理剩余元素的情况。建议先理解简单方法,再掌握双指针的核心思想。
2025-08-26 20:14:49
958
原创 Python-机器学习概述
人工智能(AI)是通过计算机模拟人类智能的研究领域,主要包含机器学习(ML)和深度学习(DL)两大分支。ML通过数据自动学习模型,DL则采用多层神经网络处理复杂任务。AI发展经历了从1956年AI元年到2022年ChatGPT的突破,应用领域包括计算机视觉、自然语言处理等。机器学习分为监督学习、无监督学习、半监督学习和强化学习,建模流程包含数据预处理、特征工程、模型训练和评估。特征工程是提升模型性能的关键,需注意避免欠拟合和过拟合。开发工具推荐scikit-learn,强调应优先优化特征工程并选择简单模型。
2025-08-26 14:39:05
1399
原创 算法练习-遍历对角线
该代码实现了二维矩阵的对角线遍历功能。通过计算每条对角线上的元素(满足行+列=k),交替改变遍历方向:偶数k从左下到右上,奇数k从右上到左下。首先确定每条对角线的列索引范围,然后按不同方向遍历元素并存入结果列表。示例展示了2×3矩阵[[1,2,3],[4,5,6]]的遍历过程,最终输出为[1,2,4,5,3,6]。关键点在于正确处理对角线元素索引和遍历方向的交替变化。
2025-08-25 20:53:28
343
原创 算法练习-最长连续序列
本文介绍了如何在O(n)时间复杂度内求解未排序整数数组的最长连续序列。核心思路是使用哈希集合存储数字,通过检查每个数字是否为序列起点(即前驱不存在),然后向后扩展序列并统计长度。该方法避免了排序的O(nlogn)开销,通过集合的O(1)查找实现高效遍历。Python代码演示了具体实现:遍历集合时,仅当数字是序列起点才开始扩展,确保每个数字最多被访问两次,从而保证线性时间复杂度。示例分析表明该方法能正确处理重复元素和不同数值范围,空数组返回0作为边界情况。空间复杂度为O(n)用于存储集合。
2025-08-23 16:00:22
1083
原创 Python-数据分析综合案例-RFM模型
RFM模型是一种基于用户交易行为的价值评估方法,通过最近购买时间(R)、购买频率(F)和消费金额(M)三个维度对用户进行分层。核心实现流程包括:数据清洗、指标计算、五分位法评分(R值越小分越高,F/M值越大分越高),并可选择加权得分或RFM组合两种策略应用。模型输出包含8类用户群体,如重要价值用户(高高高)需重点维护,而一般挽留用户(低低低)可酌情放弃。分析时需注意时间基准敏感性、数据预处理(删除无效订单)和分段优化(可自定义阈值)。可视化可呈现客户分层占比,帮助制定精准营销策略。
2025-08-22 11:57:44
585
原创 Python-Pandas GroupBy 进阶与透视表学习
本文介绍了Pandas中GroupBy和透视表的进阶用法。GroupBy包含分组聚合、转换和过滤三种核心操作:聚合可计算均值、总和等统计量;转换保持数据维度不变,如Z分数标准化;过滤则按条件筛选分组。透视表通过index、columns、values参数实现多维度数据重组与聚合分析。文章对比了三类操作的特点,并建议优先使用内置函数、预处理数据,以及利用透视表简化多维度分析。示例代码需配合实际数据在Jupyter Notebook中实践。
2025-08-21 19:29:22
745
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅