自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 深度学习中的注意力机制:原理、实现与应用全面解析

注意力机制是深度学习的核心组件,受到人类视觉选择性注意的启发。它通过QKV模型(查询、键、值)实现动态信息筛选,解决了传统RNN在处理长序列时的效率低下和信息丢失问题。实现分三步:计算权重、加权求和、生成最终表示。注意力机制分为一般注意力和自注意力,后者是Transformer的基础。在自然语言处理、计算机视觉和多模态学习中应用广泛,优势包括并行计算、长程依赖建模和可解释性,但也面临计算复杂度高、内存消耗大等挑战。未来发展方向包括高效注意力机制和理论研究深化。

2025-10-09 10:27:52 1229

原创 当未来影响过去:量子力学如何颠覆因果律

量子实验正颠覆传统时间观:在微观尺度,未来事件可能影响过去。惠勒延迟选择实验和量子擦除实验表明,当前测量选择能改变粒子过去的行为状态。2022年诺奖得主的量子纠缠研究进一步显示,因果顺序本身可能处于量子叠加态。这些现象挑战了经典因果律,暗示时间或许不是单向流动的线性结构。尽管宏观世界仍遵循传统因果,这些发现正推动量子计算等前沿技术发展,同时引发关于自由意志和现实本质的深刻哲学思考。科学界仍在探索这一神秘领域,每一次突破都在重塑我们对宇宙基本规律的理解。

2025-10-08 14:55:27 1171

原创 初识LangChain

我们来看看Langchain是个什么?然后我们yonglangchain做一个小小RAG

2025-09-28 17:49:58 582

原创 AI黄金三角:MCP、RAG和Agent

AI技术正从被动应答的"书呆子"向主动服务的"全能管家"进化。RAG技术通过检索增强生成,有效降低AI错误回答率;Agent技术赋予AI自主规划执行能力,实现从"你做"到"他做"的转变;MCP协议则解决了不同工具间的连接难题。三者协同形成"黄金三角",在商务差旅、智能客服等领域展现出1+1+1>3的效应。尽管面临决策可靠性、工具调用效率等技术挑战,未来AI将向多模态、自主化方向发展。

2025-09-28 15:24:12 945

原创 用PyTorch构建RNN歌词生成模型:从数据预处理到训练预测全解析

本文介绍了一个基于PyTorch的RNN歌词生成模型,能够学习周杰伦歌词风格并自动创作新歌词。该模型包含数据预处理(分词、词汇表构建)、RNN模型架构(嵌入层、RNN层、输出层)、训练策略(Adam优化器、交叉熵损失)和歌词生成(自回归方式)四个主要模块。虽然基础模型相对简单,但展示了深度学习在创造性任务中的应用潜力,为文本生成领域提供了技术参考。文章还提出了改进方向,如使用LSTM/GRU、注意力机制等提升生成质量。该框架可扩展至其他文本生成任务,具有实践和研究价值。

2025-09-26 15:29:06 1056

原创 循环神经网络RNN

本文介绍了自然语言处理(NLP)的核心技术及应用。首先概述了NLP的七个语言处理层级及其在机器翻译、智能客服等领域的应用。重点讲解了词向量和词嵌入层的原理与实现,包括分词、构建词表和向量化表示的过程。随后详细阐述了循环神经网络(RNN)的结构、类型及其在文本处理中的优势,并介绍了LSTM和GRU等改进模型。最后以周杰伦歌词生成为例,展示了文本生成任务的数据处理、模型构建和训练评估的全流程。文章指出NLP未来将向多模态融合、预训练模型等方向发展,同时也面临语义理解、计算成本等挑战。

2025-09-25 20:39:20 743

原创 Nano Banana如何重塑AGI发展路径

Nano Banana作为谷歌2025年推出的多模态AI模型,以其卓越的图像一致性和自然语言编辑能力引领技术范式从“拼参数”转向“拼理解”。它通过交错生成、人物锁定等技术实现像素级精准编辑,将AI从生成工具升级为理解创作逻辑的智能伙伴,为AGI构建跨模态常识推理与世界模型提供了关键路径。

2025-09-25 20:08:51 996

原创 卷积神经网络CNN

数字图像是由离散像素组成的二维数组,每个像素包含位置坐标和颜色值(黑白、灰度或RGB彩色)。图像分辨率决定细节表现力。卷积神经网络(CNN)通过局部感受野、权值共享和层次化特征提取处理图像数据,核心组件包括卷积层(使用卷积核提取特征)、池化层(降维)和全连接层。CNN经典架构如LeNet、AlexNet等不断演进,提升图像处理能力。实战中,CNN模型通过前向传播、损失计算和反向传播进行训练,在CIFAR-10等数据集上表现优异。数字图像与CNN的结合为计算机视觉任务提供了强大工具。

2025-09-25 19:53:38 1606

原创 深度学习基础、pytorch使用①

深度学习是一种基于多层神经网络的机器学习方法,能够自动提取特征并进行非线性变换。其优势在于高精度和大数据处理能力,但存在可解释性差、算力需求高等缺点。PyTorch是支持GPU加速的深度学习框架,核心数据结构是张量(Tensor),提供类似NumPy的运算接口,并支持自动微分和动态计算图。使用PyTorch时,可通过多种方式创建和转换张量,包括基本创建、线性/随机张量生成、类型转换等,同时支持丰富的数值计算操作,如点乘、矩阵乘法等基本运算。

2025-09-15 20:10:55 1130

原创 机器学习 之 时间序列预测 的 电力负荷预测案例

摘要:本文系统介绍了时间序列预测方法及其在电力负荷预测中的应用。首先阐述了时间序列预测的基本概念,包括单变量/多变量、单步/多步等任务分类,以及ARIMA、XGBoost、LSTM等算法选择策略。随后以电力负荷预测为案例,详细说明了项目背景、数据预处理(时间格式化、去重)、特征工程(时间特征提取、热编码)和模型训练(XGBoost网格搜索)的全流程。最后对比分析了不同算法的适用场景:XGBoost适用于中小样本,LSTM/Transformer擅长长周期预测,ARIMA适合高解释性需求。文章为时间序列预测在

2025-09-09 11:06:55 1053

原创 KMeans聚类

本文系统介绍了聚类算法及其应用。主要内容包括:(1)聚类算法概念:一种通过样本相似性进行自动分类的无监督学习方法;(2)Kmeans算法实现流程:确定K值、选择初始中心点、迭代计算直至中心点稳定;(3)模型评估方法:详细介绍了误差平方和(SSE)、肘方法、轮廓系数法和CH指标四种评估方式,并提供了Python实现代码示例。通过可视化结果展示了不同评估方法的效果,为聚类分析提供了系统的评价体系。

2025-09-07 14:57:07 1250

原创 集成学习 —— 梯度提升树GBDT、XGBoost

本文系统介绍了梯度提升树算法及其变种XGBoost。首先阐述了残差提升树(Boosting Decision Tree)通过拟合真实值与预测值的残差进行提升,以及梯度提升树(Gradient Boosting Decision Tree)利用损失函数负梯度替代残差的方法。通过详细案例展示了构建梯度提升树的过程:初始化弱学习器后,依次构建多个决策树,每个树拟合前一个树的负梯度,最后组合所有弱学习器输出。特别介绍了XGBoost作为GBDT的改进版本,在损失函数中加入正则化项以控制模型复杂度,防止过拟合。

2025-09-06 17:44:00 1101

原创 集成学习(随机森林算法、Adaboost算法)

本文系统介绍了集成学习的核心思想及两种典型算法:随机森林和Adaboost。集成学习通过组合多个弱学习器提升预测性能,主要分为Bagging(并行训练,如随机森林)和Boosting(串行训练,如Adaboost)两类。随机森林采用Bootstrap抽样和特征随机选择构建多棵决策树,通过投票机制输出结果,具有抗过拟合、评估特征重要性等优势,适用于分类、回归等多种场景。Adaboost则通过动态调整样本权重,使后续分类器聚焦于错误样本,最终加权组合弱分类器。文章详细阐述了两种算法的实现流程、优缺点、应用场景及

2025-09-06 15:28:43 1447

原创 C4.5决策树(信息增益率)、CART决策树(基尼指数)、CART回归树、决策树剪枝

CART模型是一种决策树模型,它即可以用于分类,也可以用于回归。CART回归树使用平方误差最小化策略,CART分类生成树采用的基尼指数最小化策略。

2025-09-04 20:42:22 1149

原创 决策树、ID3决策树(信息熵、信息增益)

决策树 (Decision Tree) 是一种​​树形结构的预测模型​​,它代表的是对象属性与对象值之间的一种映射关系。决策树通过学习数据特征,构建一套层次化的“判断-分支”规则,最终在叶子节点给出预测结果(每个叶子节点代表一种分类结果)。根节点 (Root Node)​​:代表整个数据集的起始点,包含所有样本。内部节点 (Internal Node)​​:对应特征或属性上的判断条件,每个判断会产生分支。叶节点 (Leaf Node)​​:代表决策的最终结果,即分类的类别或回归的预测值。

2025-09-04 10:55:33 1629 1

原创 逻辑回归(sigmoid函数、混淆矩阵、精确率召回率F1)

本文系统介绍了逻辑回归及其相关评估方法。主要内容包括:1)逻辑回归原理,通过Sigmoid函数将线性回归输出映射为概率值;2)Sigmoid函数特性及其优缺点;3)最大似然估计的参数估计方法;4)混淆矩阵的四个关键指标(TP、FP、FN、TN)及其计算;5)分类评估指标(精确率、召回率、F1值)的数学定义和实现代码;6)ROC曲线和AUC指标的解读,包括曲线绘制方法和面积评估意义。文章通过代码示例展示了乳腺癌数据集的逻辑回归应用,并详细说明了分类模型的评估过程。

2025-09-03 21:00:54 1304

原创 线性回归②(回归模型评估、波士顿房价预测.....)

本文介绍了线性回归模型评估与优化的关键内容。首先阐述了模型评估的重要性,包括衡量泛化能力、模型比较和满足业务需求三方面,并详细讲解了MSE、MAE、RMSE三种评估指标。接着以波士顿房价预测为例,演示了数据标准化处理、正规方程和梯度下降两种优化方法,以及模型评估实现代码。然后深入分析了欠拟合和过拟合问题,包括产生原因和解决方法。最后介绍了L1/L2正则化技术,说明其通过添加惩罚项来防止过拟合的原理。文章通过理论讲解与代码示例相结合的方式,全面覆盖了线性回归模型评估与优化的核心知识点。

2025-09-02 15:03:24 929

原创 程序员头发研究报告:从代码到发际线的科学探索

本文是一篇结合了科学数据与行业洞察的趣味性研究报告,旨在探讨程序员群体与头发健康之间的真实关联。研究指出,程序员脱发并非由其职业本身直接导致,而是由​​高强度工作压力、不规律的作息(如频繁熬夜)以及不均衡的饮食​​等因素引发的生理反应(如皮质醇水平升高、生物钟紊乱、微量元素缺乏)所造成的。通过科学的干预和习惯调整,脱发问题是可以有效缓解和预防的。

2025-09-02 11:53:58 8711 3

原创 AI 入门指南:从 “听不懂人话” 到 “比你懂你”,人工智能到底是个啥?

很多人担心 “AI 会抢我的工作”“AI 会统治人类”,其实不用这么害怕。AI 就像以前的 “ electricity”—— 刚开始大家也担心 “ electricity 会电死人”,但后来发现, electricity 能点亮灯、带动机器,让生活更方便。​AI 也是一样,它会代替一些重复、枯燥的工作,比如工厂里的流水线工人、银行里的柜员,但也会创造新的工作,比如 AI 训练师、AI 伦理师、AI 产品经理。而且 AI 是 “工具”,它的行为取决于人类 —— 你用它来做好事,它就会帮你;

2025-09-01 21:31:09 1195

原创 线性回归 ①(损失函数、梯度下降)

本文介绍了线性回归的基本概念、损失函数及其优化方法。线性回归分为一元和多元两种形式,通过最小化损失函数来建立模型。重点讲解了梯度下降法的原理和实现过程,包括学习率的选择、梯度计算和参数更新。文中还提供了银行信贷案例,展示如何应用梯度下降求解最优参数。正规方程法作为另一种解法也被提及。最后强调了学习率设置对模型训练效果的影响,并对比了不同损失函数的适用场景。

2025-09-01 20:53:48 1318

原创 KNN算法(K近邻算法)

KNN算法是一种基于相似度的分类和回归方法,通过计算样本距离进行分类预测。关键要素包括k值选择(影响模型复杂度)、距离度量(欧氏/曼哈顿/切比雪夫距离)和特征预处理(归一化/标准化)。应用流程包含数据分割、模型训练、预测评估等步骤,案例演示了鸢尾花分类和手写数字识别。算法优势是简单直观,但需注意k值选择和特征缩放对结果的影响。

2025-08-29 20:52:25 1873 4

原创 机器学习基本概述

机器学习是通过数据训练模型实现预测的技术。其核心流程包括:获取数据、特征工程、模型训练和评估。学习方法分为基于规则(人工设定规则)和基于模型(自动学习规律),后者更适应当前需求。主要算法类型包括监督学习(分类/回归)、无监督学习(聚类)和强化学习。建模过程中需注意过拟合与欠拟合问题,遵循奥卡姆剃刀原则选择简单有效的模型。深度学习通过模拟神经元结构实现更复杂的模式识别。特征工程和泛化能力是决定模型效果的关键因素。

2025-08-28 20:28:13 574

原创 数据处理与统计分析 —— apply自定义函数

本文介绍了pandas中的三种数据处理方法:1)向量化操作,通过底层C代码实现高性能数组运算;2)np.vectorize伪向量化,将普通函数转换为可处理数组的接口,性能介于循环和向量化之间;3)apply函数,提供最高灵活性但性能最低。重点分析了apply函数在Series和DataFrame中的应用场景,包括元素级处理、行列操作,并以泰坦尼克数据集为例展示了缺失值统计的实现。三种方法在性能与灵活性上各具优势,需根据具体需求选择。

2025-08-21 21:14:28 1168

原创 数据处理与统计分析 —— 缺失数据处理(附代码与数据集)

本文介绍了数据集中缺失值的表现形式、判断方法和处理技巧。缺失值在不同环境中可能表示为NULL、NA、空字符串或NaN(在Pandas中)。判断缺失值时,推荐使用pd.isnull()而非np.isnan,因其能处理更多数据类型。处理缺失值主要包括两种方法:删除(dropna)和填充(fillna)。删除适用于少量缺失值,填充则可采用固定值、前后值或线性插值等方式。文章以泰坦尼克号数据集为例,演示了缺失值统计、可视化及具体处理方法。对于时间序列数据,还介绍了后向填充和线性插值等特殊处理方式。

2025-08-20 16:28:10 1239

原创 数据处理与统计分析 —— 数据合并组合(附代码与数据集)

本文介绍了Pandas中三种数据合并方法:concat()、merge()和join()。concat()用于简单连接DataFrame,支持行列连接和索引重置;merge()实现类似SQL的合并操作,包括一对一和多对一关系,支持多种连接方式(inner/outer/left/right);join()则基于索引进行数据合并,可处理不同索引情况。文章通过实际案例演示了每种方法的使用场景和参数配置,并提供了配套数据集供练习。这些方法为数据分析和处理提供了灵活的合并工具,适用于不同结构数据集的整合需求。

2025-08-19 20:58:07 1416

原创 数据处理与统计分析 —— 房源数据集分析案例

摘要:该数据集通过网盘提供下载链接,包含租房数据分析和可视化代码。

2025-08-18 20:49:15 181

原创 数据处理和统计分析 —— Pandas 基础(附数据集)

DataFrame和Series是Pandas最基本的两种数据结构Series和Python中的列表非常相似,但是它的每个元素的数据类型必须相同在Pandas中,Series是一维容器,Series表示DataFrame的每一行或每一列可以把DataFrame理解成一张表可以把DataFrame看作由Series对象组成的字典,其中key是列名,值是Series。

2025-08-18 20:27:53 1410

原创 数据处理与统计分析 —— numpy入门

NumPy是Python数据分析的核心库,提供高性能科学计算和矩阵运算功能。主要特性包括:1)多维数组(ndarray)支持矢量运算;2)创建数组的多种方法(zeros/ones/arange等);3)矩阵运算和随机数生成;4)数据类型转换;5)数学统计函数(mean/max/cumsum等);6)数组操作(排序、去重、条件筛选等)。其核心对象ndarray具有shape、dtype、size等属性,支持各种数值运算和线性代数操作,是进行科学计算和数据处理的基础工具。

2025-08-15 20:52:26 1033

原创 MySQL数据库 —— python与MySQL交互

本文介绍了使用Python的pymysql模块进行MySQL数据库编程的方法。主要内容包括:pymysql模块的三种安装方式;数据库连接的基本步骤(导入模块、建立连接、创建游标);执行SQL语句和获取结果的示例代码(包括fetchall和fetchmany方法的使用);以及最后必须关闭游标和连接的操作。文中还提供了一个完整的查询示例,展示了如何从"jing_dong"数据库的"goods"表中查询数据并分批次打印结果。该教程适合需要进行大批量数据操作的开发者参考。

2025-08-14 21:24:34 502

原创 MySQL数据库 —— MySQL函数

MySQL内置函数包括数值、字符串、时间日期、流程控制等类型,可通过官方文档或HELP命令查询。窗口函数是MySQL8.0新增功能,能简化复杂查询,通过OVER()设置数据范围,实现排名、差值计算等操作。PARTITION BY可按列分区计算,不同于GROUP BY的聚合功能。排名函数RANK、DENSE_RANK和ROW_NUMBER可生成不同规则的序号。

2025-08-14 21:13:16 749

原创 MySQL数据库入门 —— 从小白手把手教会

本文介绍了MySQL数据库的基础操作学习指南,包含软件安装、数据库创建、表操作、DML语句、单表查询和多表查询等内容。重点讲解了MySQL和可视化工具DataGrip的安装方法,演示了创建数据库和表的SQL语法,详细说明了单表查询的各种方式(普通查询、条件查询、排序、聚合函数等)以及多表查询(外键约束、表关联、自关联和子查询)。

2025-08-13 16:29:42 1234

原创 MySQL数据库——单表查询

本文介绍了SQL查询的基本操作,包括简单查询、条件查询、排序查询、聚合函数、分组查询和LIMIT查询。

2025-08-12 11:50:31 768

原创 MySQL数据库——基础入门

数据库是存储和管理数据的系统,主要分为关系型(MySQL、Oracle等)和非关系型数据库。关系型数据库以表格形式存储数据,支持事务处理;非关系型数据库采用键值对、文档等形式存储,查询性能高。数据库操作包括CURD(增删改查),可通过命令行或工具(如DataGrip)实现。SQL语句用于管理数据库、数据表及表记录,涉及创建、查看、修改和删除等操作。表字段操作包括添加、修改和删除字段,数据类型和约束用于规范数据存储。

2025-08-11 17:49:34 625

原创 【python进阶入门】非线性结构——树

摘要: 树是一种非线性数据结构,具有层次关系,由节点(含父子关系)和子树构成。二叉树是每个节点最多有两个子树的树,包括完全二叉树、平衡二叉树等类型,用于高效存储和检索数据。遍历方式分为广度优先(层次遍历)和深度优先(前序、中序、后序),前者逐层访问,后者深入分支再回溯。存储方式包括顺序存储(数组)和链式存储(指针),后者更灵活。二叉树的性质涉及节点数量、深度计算等规则,如叶节点数=度为2的节点数+1。代码实现需定义树结构并实现遍历算法。

2025-08-11 15:29:21 1324

原创 【python进阶入门】数据结构 ——链表、排序(冒泡、插入、选择、快速)均附代码

本文介绍了链表数据结构及其排序算法实现。链表由节点组成,每个节点包含数据域和指针域,分为单链表、循环链表和双向链表。给出了链表的Python实现代码,包括判空、长度计算、遍历、增删等操作。重点讲解了四种排序算法:稳定的冒泡排序和插入排序(时间复杂度O(n²)),不稳定的选择排序和快速排序(快排最优O(nlogn))。每种算法都提供了Python代码示例,其中冒泡排序通过相邻元素比较交换,插入排序构建有序序列,选择排序每次选择最小元素,快速排序则采用分治策略。文章通过实际代码演示了各排序算法的具体实现过程。

2025-08-08 11:30:02 1174

原创 【python进阶入门】数据结构与算法&时间、空间复杂度

本文概述了数据结构与算法的基本概念及其关系。数据结构是组织数据的方式,包括栈、堆、链表等多种形式;算法则是解决问题的思路,其效率与采用的数据结构密切相关。文章介绍了算法的五大特性(输入、输出、有穷性、确定性、可行性)和衡量标准,重点讲解了时间复杂度的计算规则和大O记法,区分了最优、最坏和平均时间复杂度。同时简要说明了空间复杂度的概念。数据结构与算法的合理选择直接影响程序效率,二者共同构成了程序设计的核心要素。

2025-08-07 17:31:18 1223

原创 【Python进阶入门】迭代器和生成器

本文介绍了Python中的迭代器和生成器概念。迭代器是一种用于逐个访问集合元素的对象,需要手动实现__iter__()和__next__()方法;生成器则是特殊的迭代器,通过yield关键字简化实现,自动管理迭代状态。两者都支持惰性计算,但生成器代码更简洁,更适合处理大数据。文章还演示了如何自定义迭代器和创建生成器(通过推导式或yield),并对比了两者在实现方式、代码复杂度、性能和使用场景上的区别。最后提到生成器在数据分批处理(如模型训练)中的实际应用。

2025-08-07 16:42:57 719

原创 【python进阶入门】进程和线程

本文介绍了Python中多任务编程的进程与线程实现方式。主要内容包括:1) 进程是操作系统资源分配的最小单位,通过multiprocessing模块创建子进程实现并行;2) 线程是CPU调度的基本单位,通过threading模块创建线程实现并发;3) 进程间数据隔离,线程间共享全局变量但需注意资源竞争问题,可使用互斥锁解决;4) 对比了进程和线程的差异,进程适合CPU密集型任务但开销大,线程适合IO密集型任务但无法利用多核。文中提供了详细的代码示例演示进程/线程的创建、传参、信息获取等操作,并总结了两种方式

2025-08-05 11:06:04 1075

原创 【python进阶入门】网络编程

网络编程基础:IP、端口与协议详解 网络编程通过通信线路连接计算机,实现资源共享和信息传递。其核心三要素为: IP地址:计算机唯一标识,IPv4为当前主流,IPv6为未来趋势; 端口:进程逻辑地址,分知名端口(0-1023)和动态端口(1024-65535); 协议:TCP协议(面向连接、可靠)和UDP协议(无连接、高效)。 TCP协议采用三次握手建立连接、四次挥手断开连接,确保可靠传输。通过socket套接字实现进程间通信,开发流程包括创建套接字、绑定端口、监听连接等步骤。编程中需注意字符串与二进制的编解

2025-08-04 16:19:32 1022

原创 【python进阶入门】闭包、装饰器与深浅拷贝

本文介绍了Python中的闭包和装饰器概念。闭包是在函数嵌套中,内部函数使用外部函数变量并返回内部函数名的一种结构,可以保存函数内的变量不被销毁。装饰器则是基于闭包实现的,在不改变原函数基础上增加额外功能。文章详细讲解了闭包的构成条件、使用场景及代码示例,并展示了装饰器的两种使用方式:传统方式和语法糖方式。此外,还介绍了带有参数的装饰器实现方法,以及深拷贝与浅拷贝的区别,指出深拷贝会创建完全独立的新对象,而浅拷贝仅拷贝对象引用。

2025-08-02 17:26:08 1008

简单易上手 贪吃蛇游戏页面

简单易上手 贪吃蛇游戏页面

2025-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除