自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 从 0 到 1 揭秘深度学习:未来科技的 “大脑” 如何重塑世界?

此后,1958 年弗兰克・罗森布拉特(Frank Rosenblatt)发明的感知机,成为首个可以实际运行的神经网络模型,但由于计算能力的限制和理论瓶颈,神经网络的发展在 20 世纪 80 年代陷入低谷。英伟达(NVIDIA)的 CUDA 平台和 cuDNN 库成为深度学习硬件加速的行业标准,而 TPU(张量处理单元)、ASIC(专用集成电路)等定制化芯片的出现,进一步推动了深度学习在边缘计算和实时应用中的落地。深度学习的故事才刚刚开始,它不仅是一项技术,更是一扇通往智能未来的大门。

2025-06-10 09:15:53 353

原创 数据挖掘实战项目:电商用户购买行为分析

本次数据挖掘实战项目通过对电商用户购买行为数据的分析和挖掘,成功地发现了用户的行为模式、偏好和需求,为电商平台的运营和发展提供了有价值的参考。设置最小支持度为 5%,最小置信度为 70%,挖掘出了一些有价值的关联规则,如购买手机的用户通常会同时购买手机壳和充电器,购买洗发水的用户通常会同时购买沐浴露等。使用 Tableau 工具搭建了一个数据仪表盘,将关键的分析指标和图表进行整合和展示,方便用户直观地了解电商平台的用户购买行为和运营情况。

2025-06-09 11:44:00 1036

原创 Git 使用完全指南:从入门到协作开发

在.gitconfig文件添加:ini[alias]使用git lg即可查看美观的日志视图。

2025-06-07 08:48:10 1143

原创 深入理解卷积神经网络:从原理到应用

如今,无论是手机相册的人脸识别、自动驾驶的实时路况分析,还是医疗影像的肿瘤检测,CNN 都在其中扮演着核心角色。以 32x32 像素的彩色图像为例,输入层神经元数量达到 32x32x3=3072 个,第一层若有 1000 个神经元,仅输入层到第一层的连接就超过 300 万条。(三)全连接层(Fully Connected Layer):从特征到决策的桥梁​。(一)卷积层(Convolutional Layer):特征提取的引擎​。(二)池化层(Pooling Layer):特征的精简与抽象​。

2025-06-04 09:52:32 629

原创 KMeans 算法深度解析:从原理到实战

该算法通过将 n 个数据点划分为 k 个簇,使得每个数据点属于离其最近的均值(簇中心)所在的簇,最终实现 "物以类聚" 的效果。KMeans 算法作为聚类分析的入门级算法,虽有一定局限性,但通过合理的初始化方法(KMeans++)、科学的 K 值选择(肘部法则 + 轮廓系数)和针对性优化(MiniBatch),能够在多数实际场景中发挥重要作用。将样本分配到距离最小的簇,形成当前划分​{C1​,C2​,...,Ck​}。对于每个样本点​xj​,计算其与所有质心​μi​的欧氏距离:​​。

2025-06-04 09:25:23 1141

原创 探秘集成学习:从基础概念到实战应用

例如,假设有 10 个基学习器对某个样本进行回归预测,每个基学习器的预测值都存在一定的误差,有的偏高,有的偏低,当对这 10 个预测值进行平均时,偏高和偏低的误差就有可能相互抵消,使得最终的平均预测值更接近真实值。Boosting 是一种串行式的集成学习方法,它的核心思路是基于基学习器之间存在的依赖关系,通过迭代的方式不断对训练样本的权重进行调整,促使后续的基学习器能够更加关注之前学习器预测错误的样本。其具体操作过程如下:​。(一)Bagging(自助采样聚合)​。(二)Boosting(提升)​。

2025-06-02 19:53:24 966

原创 深入解析决策树:从原理到实践

例如,对于一个包含用户 ID 的属性,每个用户 ID 都是唯一的,依据它划分数据集会使每个子集都只包含一个样本,信息增益会非常大,但这样的划分在实际应用中往往没有意义。根节点是所有待判断的人员数据,内部节点可能是 “身高是否大于 180cm”“体重是否在合理范围内” 等判断条件,根据这些条件对数据进行分支,最终到达叶节点,给出 “适合打篮球” 或 “不适合打篮球” 的结论。以天气属性为例,当依据天气属性对数据集进行划分后,计算划分后每个子集的熵,并根据子集大小进行加权求和,得到条件熵​。

2025-06-02 09:25:15 964

原创 逻辑回归详解:从原理到实践

逻辑回归基于线性回归模型,但引入了一个关键的转换函数 ——Sigmoid 函数,将线性回归模型的输出值映射到 [0, 1] 区间,使其能够表示某一事件发生的概率。假设线性回归模型的输出为​,其中​是参数向量,​是特征向量。Sigmoid 函数的表达式为:​。逻辑回归不仅可以处理二分类问题,还可以通过扩展应用于多分类问题,常见的方法有 “一对多(One-vs-Rest,OvR)” 和 “多对多(One-vs-One,OvO)”。假设样本数据集​,其中​是第​个样本的特征向量,​是第​个样本的真实标签。

2025-05-29 21:10:51 1348

原创 深入剖析机器学习之波士顿房价案例

均方误差衡量了预测值与真实值之间误差的平方的平均值,均方根误差是均方误差的平方根,它与目标变量的单位相同,更直观地反映了误差的大小。这里alphas是一个包含一系列可能的正则化参数值的数组,scoring指定了用于评估模型性能的指标(这里使用负均方误差,因为RidgeCV会选择使该指标最大化的alpha值),cv表示交叉验证的折数。系数表示每个特征对目标变量的影响程度,截距则是当所有特征为 0 时目标变量的值(在实际应用中,所有特征为 0 的情况可能没有实际意义,但在数学模型中有其作用)。

2025-05-27 12:17:42 1241

原创 机器学习中的线性回归:从理论到实践的深度解析

线性回归是机器学习的基石,其核心思想是通过最小化误差平方和来拟合数据。无论是理论推导(损失函数、梯度下降)还是实际应用(代码实现、模型评估),都体现了简洁与高效的特点。掌握线性回归不仅能解决实际问题,还能为理解更复杂的模型(如逻辑回归、岭回归、Lasso 回归)奠定基础。在实践中,需结合数据特点选择优化算法(梯度下降 vs 正规方程),并通过特征工程和正则化提升模型性能,应对非线性和共线性等挑战。通过本文的解析与实战,相信你已对线性回归有了全面的理解。

2025-05-26 19:55:05 1207

原创 深度解析生成式 AI:从技术原理到实战应用

生成式人工智能(Generative AI)是通过深度学习模型自动创造文本、图像、代码、视频等内容的技术体系,其核心在于从数据中学习概率分布并生成符合人类认知的输出。与传统判别式 AI(如图像分类)不同,生成式 AI 实现了从 "识别" 到 "创造" 的跨越,典型应用包括:​。prompts = ["### 问题:{}\n### 回答:{}".format(q, a) for q, a in zip(examples["question"], examples["answer"])]​。

2025-05-26 08:47:10 1908

原创 KNN 算法详解:从原理到实践的全面解析

它通过计算新数据点与训练数据集中所有样本点的距离,找出距离最近的 K 个邻居,然后根据这 K 个邻居的类别(分类任务)或数值(回归任务)来确定新数据点的类别或预测值。对于回归任务,我们计算这 K 个邻居的数值标签的平均值或加权平均值(根据距离远近赋予不同权重,距离越近权重越高),将其作为测试数据点的预测值。根据计算得到的距离,对训练数据集中的所有样本点按照距离从小到大进行排序,然后选取距离测试数据点最近的 K 个样本点作为它的邻居。对于测试数据集中的每一个数据点,计算它与训练数据集中所有样本点的距离。

2025-05-24 20:01:52 666

原创 深入理解网格搜索与交叉验证:优化机器学习模型的利器

在机器学习模型中,参数是模型在训练过程中通过数据学习得到的变量,比如神经网络中的权重和偏置。在前面网格搜索的代码示例中,我们已经看到了两者的结合使用,GridSearchCV类内部就实现了交叉验证的过程,在对每个超参数组合进行评估时,使用交叉验证来计算得分,从而选择出最优的超参数组合。网格搜索的基本思想非常简单直观,它通过穷举搜索的方式,在给定的超参数取值范围内,尝试所有可能的超参数组合,并根据指定的评估指标(如准确率、均方误差等)来评估每个组合下模型的性能,最终选择性能最优的超参数组合作为模型的配置。

2025-05-24 19:59:40 1092

原创 机器学习概念深度解析:从基础到前沿

例如,在游戏中,智能体通过不断尝试不同的操作,学习如何在游戏中取得更高的分数;通过深入理解机器学习的基础概念、主要类型、经典算法以及应用与挑战,我们能够更好地把握这一领域的发展脉络,为未来在实际工作和研究中应用机器学习技术奠定坚实的基础。语音助手(如 Siri、小爱同学)能够理解用户的语音指令,并做出相应的回答和操作,背后依靠的就是机器学习算法对语音和文本的处理。在这种学习方式中,数据集中的每个样本都有对应的标签(目标值),模型的任务是学习输入特征与标签之间的映射关系,从而对新的、无标签的数据进行预测。

2025-05-23 21:08:23 1037

原创 Python 中的 KNN 算法详解:从原理到实战

在机器学习的众多算法中,K 近邻(K-Nearest Neighbors,简称 KNN)算法以其简单直观的原理和广泛的适用性脱颖而出。例如,在一个二分类问题中,如果 K=3,找到的 3 个近邻样本中有 2 个属于类别 A,1 个属于类别 B,那么待预测样本就会被归类为类别 A。具体来说,对于一个待预测的样本,KNN 算法会在训练集中找到与它距离最近的 K 个样本,然后根据这 K 个样本的标签来决定待预测样本的标签。可以根据数据的特征类型和分布情况,尝试不同的距离度量方法,如将欧氏距离改为曼哈顿距离:​。

2025-05-23 21:06:00 1065

原创 Pandas GroupBy:从入门到精通,数据聚合原来可以这么简单有趣

除了内置函数,还可以使用agg()方法传入自定义函数:python运行# 自定义聚合函数:计算销售额的范围# 应用自定义函数result = grouped['销售额'].agg(sales_range)理解核心思想:分而治之,先分组,再应用函数,最后合并结果掌握常用方法groupby()agg()filter()apply()灵活组合功能:与透视表、可视化等功能结合,挖掘更多价值注意性能优化:在大数据量下,选择合适的数据类型和方法。

2025-05-21 10:14:25 992

原创 告别循环噩梦!Pandas.apply () 让数据处理像搭积木一样简单

语法:series.apply(func, **kwargs)案例 1:数值计算假设有一个 “原始价格” 列,需要计算 “折后价”(满 100 减 30,否则打 9 折):​。genre_counts = pd.DataFrame(all_genres.most_common(), columns=['类型', '数量'])​。return row['体重(kg)'] / (row['身高(m)'] ** 2)​。return {'年': year, '月': month, '日': day}​。

2025-05-21 09:58:34 823

原创 Pandas 数据清洗全攻略:从问题诊断到完美处理

而 Pandas 作为 Python 数据分析的主力军,其强大的数据清洗功能,能帮助我们将杂乱无章的数据打磨成可供深入分析的优质数据。在使用 Pandas 进行数据清洗时,建议按照 “先诊断,后处理” 的原则,先全面了解数据存在的问题,再选择合适的方法进行处理。duplicated()函数用于判断数据中是否存在重复行,返回一个布尔型 Series,其中每个元素表示对应行是否为重复行(除第一次出现外,后续相同的行被视为重复行):​。处理异常值前,首先要识别异常值,常见的方法有:​。

2025-05-20 10:25:53 809

原创 Pandas 数据分析全流程:从入门到实战的完整思路

可以通过制作数据报表、撰写分析报告、进行汇报展示等方式,结合图表和文字,详细阐述分析的过程、发现的结论以及提出的建议。使用 Pandas 进行数据分析是一个系统的过程,从明确目标到数据获取、清洗、处理、分析,再到结果呈现,每个环节都至关重要。获取数据的基本统计信息:describe()函数能够返回数据的计数、均值、标准差、最小值、最大值以及分位数等统计信息,帮助我们了解数据的分布情况。利用 Pandas 提供的各种统计函数,计算数据的均值、中位数、众数、相关系数等,分析变量之间的关系。

2025-05-20 10:21:09 624

原创 Numpy 与 Pandas:数据处理领域的黄金搭档

随着数据科学的不断发展,Numpy 和 Pandas 也在不断更新和完善,为数据处理和分析提供了更强大的支持。例如,在处理数据时,首先使用 Pandas 进行数据加载、清洗和预处理,然后将数据转换为 Numpy 数组,利用 Numpy 进行高效的数值计算,最后再使用 Pandas 进行结果的整理和分析。通过这个案例可以看出,Numpy 和 Pandas 在数据处理的不同阶段发挥了各自的优势,Pandas 用于数据的加载、清洗和整理,Numpy 用于高效的数值计算,两者结合使用使得数据处理更加高效和便捷。

2025-05-17 11:04:20 659

原创 SQL 多表查询实战:从入门到精通

INNER JOIN:只返回匹配的记录LEFT JOIN:返回左表所有记录,右表无匹配时显示 NULLRIGHT JOIN:返回右表所有记录,左表无匹配时显示 NULLFULL OUTER JOIN:返回左右表所有记录,无匹配时显示 NULL (某些数据库不支持)

2025-05-14 11:17:18 642

原创 从 0 到 1!Python 二叉树全解析:代码实战 + 应用场景 + 避坑指南

二叉树是一种树形数据结构,其每个节点最多拥有两个子节点,分别称为左子节点和右子节点。这一特性赋予了二叉树简洁而强大的结构,使得数据的存储和检索变得高效有序。与普通树结构相比,二叉树的层次分明,就像是一个精心规划的家族族谱,每个家族成员最多有两个分支后代,结构清晰,易于理解和操作。__init__方法:这是节点,当类的构造函数我们创建一个新的节点对象时,它会自动被调用。参数item用于接收要存储在节点中的数据,可以是数字、字符串、对象等任意类型的数据。属性定义self.item。

2025-05-12 15:13:34 1135

原创 [特殊字符]Python 多进程实战!10 行代码让程序效率翻倍,小白也能轻松学会!

宝子们!今天必须给大家分享一个超实用的 Python 技能 ——!不管你是想优化代码效率,还是想让程序同时干多件事,这篇博客手把手教你用库实现 “一心多用”,亲测能让你的代码运行速度起飞!💨。

2025-05-07 10:21:59 305

原创 从零开始学AI之Python 装饰器篇

代码中定义了两个变量 a 和 b 并初始化为 0,然后定义了一个名为 outer 的函数,在 outer 函数内部又定义了一个函数 inner ,最后定义了函数 func 并使用 @outer 对其进行装饰,完成这些操作后调用 func 函数并输出结果。outer 函数就是一个典型的装饰器函数,它接收一个函数 func 作为参数,这种将函数作为参数传递的特性是装饰器实现的基础。在 Python 编程的世界里,有一个神奇的语法糖 —— 装饰器,它能在不改变原有函数代码的基础上,为函数增添新的功能。

2025-05-05 21:24:27 263

原创 从零开始学ai之python面向对象篇

1. 循环输入5个明星对象star_list = [] # 用列表存储所有对象(别用list作变量名!会覆盖Python内置类型)name = input(f'请输入第{i+1}位明星姓名:')movie = input(f'请输入{name}的代表电影:')star = Star(name, movie) # 创建Star类的实例(对象)star_list.append(star) # 把对象添加到列表# 2. 调用方法并打印对象print('\n--- 明星信息展示 ---')

2025-04-29 20:36:44 465 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除