24毕业生从零开始学ai-CSDN博客

原创从 0 到 1 揭秘深度学习：未来科技的 “大脑” 如何重塑世界？

此后，1958 年弗兰克・罗森布拉特（Frank Rosenblatt）发明的感知机，成为首个可以实际运行的神经网络模型，但由于计算能力的限制和理论瓶颈，神经网络的发展在 20 世纪 80 年代陷入低谷。英伟达（NVIDIA）的 CUDA 平台和 cuDNN 库成为深度学习硬件加速的行业标准，而 TPU（张量处理单元）、ASIC（专用集成电路）等定制化芯片的出现，进一步推动了深度学习在边缘计算和实时应用中的落地。深度学习的故事才刚刚开始，它不仅是一项技术，更是一扇通往智能未来的大门。

2025-06-10 09:15:53 353

原创数据挖掘实战项目：电商用户购买行为分析

本次数据挖掘实战项目通过对电商用户购买行为数据的分析和挖掘，成功地发现了用户的行为模式、偏好和需求，为电商平台的运营和发展提供了有价值的参考。设置最小支持度为 5%，最小置信度为 70%，挖掘出了一些有价值的关联规则，如购买手机的用户通常会同时购买手机壳和充电器，购买洗发水的用户通常会同时购买沐浴露等。使用 Tableau 工具搭建了一个数据仪表盘，将关键的分析指标和图表进行整合和展示，方便用户直观地了解电商平台的用户购买行为和运营情况。

2025-06-09 11:44:00 1036

原创 Git 使用完全指南：从入门到协作开发

在.gitconfig文件添加：ini[alias]使用git lg即可查看美观的日志视图。

2025-06-07 08:48:10 1143

原创深入理解卷积神经网络：从原理到应用

如今，无论是手机相册的人脸识别、自动驾驶的实时路况分析，还是医疗影像的肿瘤检测，CNN 都在其中扮演着核心角色。以 32x32 像素的彩色图像为例，输入层神经元数量达到 32x32x3=3072 个，第一层若有 1000 个神经元，仅输入层到第一层的连接就超过 300 万条。（三）全连接层（Fully Connected Layer）：从特征到决策的桥梁。（一）卷积层（Convolutional Layer）：特征提取的引擎。（二）池化层（Pooling Layer）：特征的精简与抽象。

2025-06-04 09:52:32 629

原创 KMeans 算法深度解析：从原理到实战

该算法通过将 n 个数据点划分为 k 个簇，使得每个数据点属于离其最近的均值（簇中心）所在的簇，最终实现 "物以类聚" 的效果。KMeans 算法作为聚类分析的入门级算法，虽有一定局限性，但通过合理的初始化方法（KMeans++）、科学的 K 值选择（肘部法则 + 轮廓系数）和针对性优化（MiniBatch），能够在多数实际场景中发挥重要作用。将样本分配到距离最小的簇，形成当前划分{C1,C2,...,Ck}。对于每个样本点xj，计算其与所有质心μi的欧氏距离：。

2025-06-04 09:25:23 1141

原创探秘集成学习：从基础概念到实战应用

例如，假设有 10 个基学习器对某个样本进行回归预测，每个基学习器的预测值都存在一定的误差，有的偏高，有的偏低，当对这 10 个预测值进行平均时，偏高和偏低的误差就有可能相互抵消，使得最终的平均预测值更接近真实值。Boosting 是一种串行式的集成学习方法，它的核心思路是基于基学习器之间存在的依赖关系，通过迭代的方式不断对训练样本的权重进行调整，促使后续的基学习器能够更加关注之前学习器预测错误的样本。其具体操作过程如下：。（一）Bagging（自助采样聚合）。（二）Boosting（提升）。

2025-06-02 19:53:24 966

原创深入解析决策树：从原理到实践

例如，对于一个包含用户 ID 的属性，每个用户 ID 都是唯一的，依据它划分数据集会使每个子集都只包含一个样本，信息增益会非常大，但这样的划分在实际应用中往往没有意义。根节点是所有待判断的人员数据，内部节点可能是 “身高是否大于 180cm”“体重是否在合理范围内” 等判断条件，根据这些条件对数据进行分支，最终到达叶节点，给出 “适合打篮球” 或 “不适合打篮球” 的结论。以天气属性为例，当依据天气属性对数据集进行划分后，计算划分后每个子集的熵，并根据子集大小进行加权求和，得到条件熵。

2025-06-02 09:25:15 964

原创逻辑回归详解：从原理到实践

逻辑回归基于线性回归模型，但引入了一个关键的转换函数 ——Sigmoid 函数，将线性回归模型的输出值映射到 [0, 1] 区间，使其能够表示某一事件发生的概率。假设线性回归模型的输出为，其中是参数向量，是特征向量。Sigmoid 函数的表达式为：。逻辑回归不仅可以处理二分类问题，还可以通过扩展应用于多分类问题，常见的方法有 “一对多（One-vs-Rest，OvR）” 和 “多对多（One-vs-One，OvO）”。假设样本数据集，其中是第个样本的特征向量，是第个样本的真实标签。

2025-05-29 21:10:51 1348

原创深入剖析机器学习之波士顿房价案例

均方误差衡量了预测值与真实值之间误差的平方的平均值，均方根误差是均方误差的平方根，它与目标变量的单位相同，更直观地反映了误差的大小。这里alphas是一个包含一系列可能的正则化参数值的数组，scoring指定了用于评估模型性能的指标（这里使用负均方误差，因为RidgeCV会选择使该指标最大化的alpha值），cv表示交叉验证的折数。系数表示每个特征对目标变量的影响程度，截距则是当所有特征为 0 时目标变量的值（在实际应用中，所有特征为 0 的情况可能没有实际意义，但在数学模型中有其作用）。

2025-05-27 12:17:42 1241

原创机器学习中的线性回归：从理论到实践的深度解析

线性回归是机器学习的基石，其核心思想是通过最小化误差平方和来拟合数据。无论是理论推导（损失函数、梯度下降）还是实际应用（代码实现、模型评估），都体现了简洁与高效的特点。掌握线性回归不仅能解决实际问题，还能为理解更复杂的模型（如逻辑回归、岭回归、Lasso 回归）奠定基础。在实践中，需结合数据特点选择优化算法（梯度下降 vs 正规方程），并通过特征工程和正则化提升模型性能，应对非线性和共线性等挑战。通过本文的解析与实战，相信你已对线性回归有了全面的理解。

2025-05-26 19:55:05 1207

原创深度解析生成式 AI：从技术原理到实战应用

生成式人工智能（Generative AI）是通过深度学习模型自动创造文本、图像、代码、视频等内容的技术体系，其核心在于从数据中学习概率分布并生成符合人类认知的输出。与传统判别式 AI（如图像分类）不同，生成式 AI 实现了从 "识别" 到 "创造" 的跨越，典型应用包括：。prompts = ["### 问题：{}\n### 回答：{}".format(q, a) for q, a in zip(examples["question"], examples["answer"])]。

2025-05-26 08:47:10 1908

原创 KNN 算法详解：从原理到实践的全面解析

它通过计算新数据点与训练数据集中所有样本点的距离，找出距离最近的 K 个邻居，然后根据这 K 个邻居的类别（分类任务）或数值（回归任务）来确定新数据点的类别或预测值。对于回归任务，我们计算这 K 个邻居的数值标签的平均值或加权平均值（根据距离远近赋予不同权重，距离越近权重越高），将其作为测试数据点的预测值。根据计算得到的距离，对训练数据集中的所有样本点按照距离从小到大进行排序，然后选取距离测试数据点最近的 K 个样本点作为它的邻居。对于测试数据集中的每一个数据点，计算它与训练数据集中所有样本点的距离。

2025-05-24 20:01:52 666

原创深入理解网格搜索与交叉验证：优化机器学习模型的利器

在机器学习模型中，参数是模型在训练过程中通过数据学习得到的变量，比如神经网络中的权重和偏置。在前面网格搜索的代码示例中，我们已经看到了两者的结合使用，GridSearchCV类内部就实现了交叉验证的过程，在对每个超参数组合进行评估时，使用交叉验证来计算得分，从而选择出最优的超参数组合。网格搜索的基本思想非常简单直观，它通过穷举搜索的方式，在给定的超参数取值范围内，尝试所有可能的超参数组合，并根据指定的评估指标（如准确率、均方误差等）来评估每个组合下模型的性能，最终选择性能最优的超参数组合作为模型的配置。

2025-05-24 19:59:40 1092

原创机器学习概念深度解析：从基础到前沿

例如，在游戏中，智能体通过不断尝试不同的操作，学习如何在游戏中取得更高的分数；通过深入理解机器学习的基础概念、主要类型、经典算法以及应用与挑战，我们能够更好地把握这一领域的发展脉络，为未来在实际工作和研究中应用机器学习技术奠定坚实的基础。语音助手（如 Siri、小爱同学）能够理解用户的语音指令，并做出相应的回答和操作，背后依靠的就是机器学习算法对语音和文本的处理。在这种学习方式中，数据集中的每个样本都有对应的标签（目标值），模型的任务是学习输入特征与标签之间的映射关系，从而对新的、无标签的数据进行预测。

2025-05-23 21:08:23 1037

原创 Python 中的 KNN 算法详解：从原理到实战

在机器学习的众多算法中，K 近邻（K-Nearest Neighbors，简称 KNN）算法以其简单直观的原理和广泛的适用性脱颖而出。例如，在一个二分类问题中，如果 K=3，找到的 3 个近邻样本中有 2 个属于类别 A，1 个属于类别 B，那么待预测样本就会被归类为类别 A。具体来说，对于一个待预测的样本，KNN 算法会在训练集中找到与它距离最近的 K 个样本，然后根据这 K 个样本的标签来决定待预测样本的标签。可以根据数据的特征类型和分布情况，尝试不同的距离度量方法，如将欧氏距离改为曼哈顿距离：。

2025-05-23 21:06:00 1065

原创 Pandas GroupBy：从入门到精通，数据聚合原来可以这么简单有趣

除了内置函数，还可以使用agg()方法传入自定义函数：python运行# 自定义聚合函数：计算销售额的范围# 应用自定义函数result = grouped['销售额'].agg(sales_range)理解核心思想：分而治之，先分组，再应用函数，最后合并结果掌握常用方法groupby()agg()filter()apply()灵活组合功能：与透视表、可视化等功能结合，挖掘更多价值注意性能优化：在大数据量下，选择合适的数据类型和方法。

2025-05-21 10:14:25 992

原创告别循环噩梦！Pandas.apply () 让数据处理像搭积木一样简单

语法：series.apply(func, **kwargs)案例 1：数值计算假设有一个 “原始价格” 列，需要计算 “折后价”（满 100 减 30，否则打 9 折）：。genre_counts = pd.DataFrame(all_genres.most_common(), columns=['类型', '数量'])。return row['体重(kg)'] / (row['身高(m)'] ** 2)。return {'年': year, '月': month, '日': day}。

2025-05-21 09:58:34 823

原创 Pandas 数据清洗全攻略：从问题诊断到完美处理

而 Pandas 作为 Python 数据分析的主力军，其强大的数据清洗功能，能帮助我们将杂乱无章的数据打磨成可供深入分析的优质数据。在使用 Pandas 进行数据清洗时，建议按照 “先诊断，后处理” 的原则，先全面了解数据存在的问题，再选择合适的方法进行处理。duplicated()函数用于判断数据中是否存在重复行，返回一个布尔型 Series，其中每个元素表示对应行是否为重复行（除第一次出现外，后续相同的行被视为重复行）：。处理异常值前，首先要识别异常值，常见的方法有：。

2025-05-20 10:25:53 809

原创 Pandas 数据分析全流程：从入门到实战的完整思路

可以通过制作数据报表、撰写分析报告、进行汇报展示等方式，结合图表和文字，详细阐述分析的过程、发现的结论以及提出的建议。使用 Pandas 进行数据分析是一个系统的过程，从明确目标到数据获取、清洗、处理、分析，再到结果呈现，每个环节都至关重要。获取数据的基本统计信息：describe()函数能够返回数据的计数、均值、标准差、最小值、最大值以及分位数等统计信息，帮助我们了解数据的分布情况。利用 Pandas 提供的各种统计函数，计算数据的均值、中位数、众数、相关系数等，分析变量之间的关系。

2025-05-20 10:21:09 624

原创 Numpy 与 Pandas：数据处理领域的黄金搭档

随着数据科学的不断发展，Numpy 和 Pandas 也在不断更新和完善，为数据处理和分析提供了更强大的支持。例如，在处理数据时，首先使用 Pandas 进行数据加载、清洗和预处理，然后将数据转换为 Numpy 数组，利用 Numpy 进行高效的数值计算，最后再使用 Pandas 进行结果的整理和分析。通过这个案例可以看出，Numpy 和 Pandas 在数据处理的不同阶段发挥了各自的优势，Pandas 用于数据的加载、清洗和整理，Numpy 用于高效的数值计算，两者结合使用使得数据处理更加高效和便捷。

2025-05-17 11:04:20 659