
AI 技术前沿
文章平均质量分 96
本专栏专注于人工智能领域的技术科普与实战讲解,涵盖数据处理、机器学习、深度学习、自然语言处理等核心内容。通过结合实例、代码解析和前沿应用,带你从零理解 AI 技术原理,掌握实用工具与技巧,帮助你快速提升在 AI 项目中的实战能力。
秋说
全栈开发与网安实战导师 | 欢迎订阅优质付费专栏,专注做「新手能看懂、学完能实战」的友好型全栈技术教程。商务合作/项目毕设指导/产品推广/技术支持→私信沟通
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【数据建模】从单特征到最优特征组合的系统化选择
在本文中,我们将使用 Ames Housing Dataset,首先找出那些单独表现突出的关键特征。然后,我们会逐步叠加这些洞见,观察它们组合后如何提升预测的准确性。进一步地,我们将利用 Sequential Feature Selector (SFS) 的强大功能,在复杂特征中筛选出最优组合。这一系统化的方法将引导我们找到“最佳平衡点”——在此处,所选特征既能最大化模型的预测精度,又不会因冗余数据而使模型负担过重。原创 2025-10-05 15:36:05 · 536 阅读 · 0 评论 -
【独热编码】找出线性回归中最具预测力的分类特征
正确地准备分类数据是机器学习中的基础步骤,尤其是在使用线性模型时。独热编码(One Hot Encoding)是一项关键技术,它能将分类变量转换为机器可理解的格式。本文将解释为何不能直接使用分类变量,并展示如何通过独热编码来识别线性回归中最具预测性的分类特征。原创 2025-10-05 15:27:27 · 491 阅读 · 0 评论 -
解锁本地 AI 力量:三种高效运行 Gemma 2 的方法
在 Gemma 1 大获成功之后,Google 团队推出了更先进的模型系列 —— Gemma 2。这一全新的大型语言模型(LLM)家族包括 90 亿(9B)和 270 亿(27B)参数的模型。在本教程中,我们将学习三种工具,它们能让你在本地运行 Gemma 2 模型的速度超过在线版本。要在本地体验这一前沿模型,你只需安装应用、下载模型并开始使用。原创 2025-10-04 15:35:57 · 722 阅读 · 0 评论 -
一文详解 NumPy 基础统计分析函数
统计分析在数据科学中非常重要,它帮助我们更好地理解数据。NumPy 是 Python 中用于数值运算的关键库,帮助我们处理数组和数学函数,使计算更快、更简单。本文将介绍 NumPy 提供的一些基本统计分析函数。原创 2025-10-04 15:25:48 · 614 阅读 · 0 评论 -
【产品成功的全景指南】从关键指标到长期价值实现
我们应该把产品成功看作一种模式:持续为用户提供价值,在环境变化时灵活适应,并不断重复这一过程。要实现这一点,你需要追踪正确的指标,制定清晰的战略,并理解成功的真正含义。本文将深入解析如何选择合适的指标来衡量新产品的成功、驱动长期成功的关键要素,以及实际衡量真正重要内容的方法。原创 2025-10-03 15:34:46 · 613 阅读 · 0 评论 -
【线性回归模型系数解读】数值与分类特征的综合分析
本文将通过不同场景展示如何解读系数。我们将分析单个数值特征,考察分类变量的作用,并解析这些特征组合时引入的复杂性。通过本文的探索,旨在帮助你掌握有效利用线性回归模型的技能,提升在不同数据驱动领域的分析能力。原创 2025-10-03 14:59:56 · 929 阅读 · 0 评论 -
【高级建模】用线性、多项式与三次回归揭示房价隐藏规律
本文将探讨如何超越简单的线性模型,以捕捉数据中更复杂的关系。你将了解到多项式回归和三次回归的强大之处,它们能够突破表面现象,揭示直线可能遗漏的潜在模式。我们还将深入探讨在增加模型复杂性和保持可预测性之间的平衡,确保模型既有强大的表达能力,又切实可用。原创 2025-10-03 14:52:10 · 900 阅读 · 0 评论 -
掌握 R 语言:打造精准金融预测模型
在金融中,预测建模使用历史数据来预测未来的趋势和结果。R 作为一种强大的统计编程语言,为金融分析和建模提供了一整套稳健的工具和库。本文探讨了 R 中常用于金融预测建模的关键技术和包。我们将涵盖时间序列分析、回归、机器学习和投资组合优化,并提供使用 R 构建基础预测模型的逐步指南。原创 2025-10-02 21:08:01 · 632 阅读 · 1 评论 -
【机器学习】利用 Pipeline 提升工作流效率
机器学习项目通常需要执行一系列数据预处理步骤,然后再运行学习算法。逐一管理这些步骤可能既繁琐又容易出错。这正是 sklearn pipeline 发挥作用的地方。本文将探讨 pipeline 如何自动化机器学习工作流程中的关键环节,例如数据预处理、特征工程以及机器学习算法的整合。原创 2025-10-02 20:57:37 · 676 阅读 · 0 评论 -
【Google Colab | 第七篇】机器学习利器使用教程
Colab 支持许多流行的机器学习库,例如 PyTorch、TensorFlow、Keras 和 OpenCV。目前的限制是它尚不支持 R 或 Scala,并且对会话时间和数据大小存在一定限制。考虑到 Colab 提供的诸多优势,这些限制只是小小的代价。原创 2025-10-01 17:21:49 · 769 阅读 · 0 评论 -
【Google Colab | 第六篇】机器学习利器使用教程
Colab 提供了一个非常实用的功能,称为 Forms(表单),允许你在运行时从用户处获取输入。下面我们来看如何向笔记本添加表单。假设你希望用户设置延迟时间,而不是固定的 5 秒。为此,可以在代码单元中添加表单来接受 sleep 时间。打开一个新笔记本,点击 Options(垂直点菜单)。弹出菜单如截图所示。原创 2025-10-01 17:18:17 · 656 阅读 · 0 评论 -
【机器学习利器 | 第五篇】Google Colab使用教程
现代开发者在编写代码时高度依赖上下文敏感提示(context-sensitive help),这也是 IDE 被广泛使用的原因。Colab 笔记本编辑器同样提供此功能。行魔法由单行命令组成,而单元魔法作用于整个代码单元的代码。对于行魔法,命令前加一个 % 符号;对于单元魔法,命令前加两个 % 符号(%%)。原创 2025-10-01 17:17:10 · 558 阅读 · 0 评论 -
【机器学习利器 | 第四篇】Google Colab使用教程
假设你已经在 Google Drive 中存储了一些 Python 代码,现在希望在 Colab 中加载并进行修改。本章将介绍如何在 Colab 中加载并运行存储在 Drive 中的代码。在搜索框中输入几个字母(如 m)定位挂载命令,从列表中选择 Mount Drive。原创 2025-10-01 17:15:35 · 779 阅读 · 0 评论 -
【机器学习利器 | 第三篇】Google Colab使用教程
要将你创建的笔记本分享给其他开发者,可以直接分享存储在 Google Drive 中的副本。如果希望向更广泛的公众发布笔记本,可以通过 GitHub 仓库分享。还有一种更直接的方式:点击 Colab 笔记本右上角的 SHARE 按钮。系统将打开一个共享对话框。原创 2025-10-01 17:14:16 · 865 阅读 · 0 评论 -
【机器学习利器 | 第二篇】Google Colab使用教程
由于代码单元支持完整的 Python 语法,你可以在代码窗口中使用 Python 注释 来描述代码。然而,很多时候仅靠简单的文本注释不足以说明机器学习算法。机器学习大量使用数学知识,为了向读者解释这些术语和公式,你需要一个支持 LaTeX(数学表示语言)的编辑器。Colab 提供了 文本单元格(Text Cells) 来满足这一需求。原创 2025-10-01 17:13:08 · 794 阅读 · 0 评论 -
【机器学习利器 | 第一篇】Google Colab使用教程
自 2017 年起,谷歌将 Colaboratory 免费向公众开放。Colaboratory 现在被称为 Google Colab,或简称 Colab。谷歌为开发者提供的另一项颇具吸引力的功能是 GPU 的使用。Colab 支持 GPU,并且完全免费。将其免费向公众开放的原因,可能是为了让该软件在学术界成为教授机器学习和数据科学的标准工具;也可能出于长远考虑,为谷歌基于使用量收费的云 API 培养潜在客户群体。原创 2025-10-01 17:12:00 · 839 阅读 · 0 评论 -
【人工智能】短视频生成工具MoneyPrinterTurbo安装使用教程
在短视频创作日益普及的当下,手动制作视频不仅耗时,还需掌握剪辑、文案撰写等多种技能。而 MoneyPrinterTurbo 作为一款开源全自动短视频生成工具,只需输入主题或关键词,即可自动完成文案生成、素材匹配、字幕制作、BGM搭配,并合成高清短视频。本文将从项目介绍、特色、部署安装到实际使用,为你提供一份完整教程,帮助你快速上手这款工具。原创 2025-10-01 15:18:48 · 890 阅读 · 0 评论 -
【机器学习】高效特征选择的实用指南
在训练机器学习模型时,你有时会面对包含大量特征的数据集。然而,实际上只有其中的一小部分特征对模型预测真正重要。本文将介绍一些特征选择的实用技巧。我们不会深入探讨各种特征选择技术,而是覆盖一些简单但有效的方法,帮助你理解数据集中最相关的特征。我们不会使用特定的数据集,但你可以在自己选择的示例数据集上尝试这些方法。原创 2025-10-01 09:40:40 · 767 阅读 · 0 评论 -
在大型数据集中检测与克服完全多重共线性
完全多重共线性这一问题常常潜伏在特征众多的大型数据集中,可能伪装存在并导致统计模型结果的偏差。在本文中,我们将探讨检测、处理和优化受完全多重共线性影响的模型的方法。通过实际分析与示例,我们旨在为你提供增强模型稳健性和可解释性所需的工具,确保其能输出可靠的洞见与准确的预测。原创 2025-10-01 09:37:09 · 890 阅读 · 0 评论 -
惩罚回归模型的实现与优化
本文将演示如何在 Ames 房价数据集上使用 Lasso、Ridge 和 ElasticNet 模型。这些模型在处理可能存在多重共线性的数据时尤其有价值。我们利用这些高级回归技术展示特征缩放与超参数调优如何提升模型性能。在本文中,我们将逐步讲解如何搭建预处理流水线、在 scikit-learn 中实现各个模型,并通过调优获得最优结果。这种全面的方法不仅有助于提高预测精度,也能加深你对不同正则化方法如何影响模型训练与结果的理解。原创 2025-09-30 18:41:10 · 1162 阅读 · 0 评论 -
【机器学习】缺失值处理方法对比
本文聚焦数据预处理的关键环节——缺失值处理。如果处理不当,缺失数据会显著降低模型的准确性和可靠性。本文将介绍多种插补方法,并展示如何将其嵌入数据处理流水线中。通过这一方式,我们能够重新纳入先前被排除的特征,进一步提升预测精度,充分挖掘数据集的价值。原创 2025-09-30 18:32:06 · 901 阅读 · 0 评论 -
使用Pandas自动化数据清洗流程
几乎没有数据科学项目能够免于数据清洗。数据清洗是准备数据的初始步骤,其核心目的是保留数据中相关且有用的信息,无论是为了后续分析,还是作为人工智能或机器学习模型的输入。常见的数据清洗操作包括统一或转换数据类型、处理缺失值、剔除因错误测量产生的噪声值以及去重。本文将介绍如何利用Pandas库的功能,实现数据清洗流程的自动化。原创 2025-09-29 10:39:09 · 561 阅读 · 0 评论 -
基于树的回归模型与决策树可视化指南
基于树的回归模型是机器学习中强大的工具,能够处理非线性关系和复杂的数据结构。在本文中,我们将介绍一系列基于树的模型,并重点分析它们的优缺点。随后,我们将通过一个实际示例,演示如何使用 sklearn 和 matplotlib 实现并可视化决策树。最后,我们将使用 dtreeviz 对可视化进行增强,该工具可以提供更为详细的洞察。原创 2025-09-28 09:48:32 · 733 阅读 · 0 评论 -
使用特征工程提升你的模型性能
本文系统介绍了特征工程在机器学习中的重要性与实践方法。内容涵盖特征选择、提取、构造、变换等核心流程,并结合缺失值处理、分类变量编码、分箱、异常值处理及特征缩放等常用技术进行示例说明。同时总结了特征工程的最佳实践,包括迭代实验、自动化工具使用、特征影响评估以及结合领域知识等。通过合理的特征工程,能够显著提升模型性能和预测准确性,是机器学习成功的关键步骤。原创 2025-09-28 09:38:47 · 625 阅读 · 0 评论 -
Boosting Over Bagging:利用梯度提升回归器提高预测精度
集成学习技术主要分为两类:袋装(Bagging)和提升(Boosting)。袋装通过汇总独立预测结果来提高稳定性和准确性,而提升则通过顺序纠正前一模型的错误,在每次迭代中提升性能。本文将开启对提升方法的深入探讨,首先介绍梯度提升回归器(Gradient Boosting Regressor)。通过在 Ames 房价数据集上的应用,我们将展示提升方法如何独特地增强模型性能,并为后续文章中探讨各种提升技术奠定基础。原创 2025-09-27 22:25:18 · 1015 阅读 · 1 评论 -
使用 ControlFlow 构建 3 个有趣的 AI 应用
AI 行业正快速迈向利用大型语言模型(LLMs)构建解决方案并最大化 AI 模型潜力的方向。企业正在寻求能将 AI 无缝集成到现有代码库中的工具,从而避免雇佣专业人员和获取资源所带来的高额成本。这正是 ControlFlow 的用武之地。借助 ControlFlow,你只需几行代码就能开发复杂的 AI 应用。在本教程中,我们将探索 ControlFlow,并用它来构建三个有趣的 AI 应用。这些项目涵盖从简单的文本分类器到由多个智能体、任务和流程组成的复杂 AI。原创 2025-09-27 16:35:31 · 1200 阅读 · 0 评论 -
决策树实战:如何用有序编码提升预测能力
本文将讨论数据集中常见的不同类型的分类数据。我们将深入探讨有序编码,以及在实现决策树回归器(Decision Tree Regressor)时如何利用它。通过使用 sklearn 的 OrdinalEncoder 和 Ames 房价数据集的实用 Python 示例,本指南将为你提供有效实施这些策略的技能。此外,我们还将直观展示这些编码变量如何影响决策树回归器的决策。原创 2025-09-26 12:42:06 · 780 阅读 · 1 评论 -
【机器学习】从单棵树到森林:用集成方法提升房地产预测
本文深入探讨了基于树的建模技术,使用 Ames Housing 数据集作为示例。从基础的数据预处理开始,包括类别转换、缺失值处理和编码方法,然后逐步评估并改进决策树模型,最终引入 Bagging 和随机森林的集成方法进行比较分析。文章通过实例演示了随着树的数量变化,模型性能的增量改善与差异,为读者提供了完整的树模型预测建模理解框架。原创 2025-09-26 10:50:57 · 910 阅读 · 1 评论 -
【机器学习】利用 XGBoost 解决缺失数据问题
XGBoost 因其在众多 Kaggle 比赛中表现出色而获得广泛认可,成为应对复杂机器学习问题的热门选择。该算法以处理大规模数据集的高效性而闻名,其实用性和有效性尤为突出。在本文中,我们将使用 XGBoost 对 Ames 房价数据集进行建模,以展示其独特的能力。在之前对梯度提升回归(GBR)的讨论基础上,我们将探索 XGBoost 相较于 GBR 的关键特性,包括其在处理缺失值和类别数据方面的高级方法。原创 2025-09-25 12:35:41 · 601 阅读 · 0 评论 -
探索 LightGBM:基于 GBDT 的叶子优先生长与 GOSS 技术
LightGBM 是一个高效的梯度提升框架。由于其速度快、性能高,尤其在处理大规模和复杂数据集时表现出色,它受到了广泛关注。该算法由微软开发,以其独特的能力而闻名——相比传统方法,它能够轻松处理大量数据。在本文中,我们将以 Ames Housing 数据集为例,尝试使用 LightGBM 框架。原创 2025-09-25 11:28:36 · 797 阅读 · 0 评论 -
CatBoost 必备指南:构建稳健的房价预测系统
梯度提升算法是强大的预测工具,而 CatBoost 因其高效处理类别型数据而备受欢迎。本文将探讨 CatBoost 的独特功能,例如对称树(Symmetric Trees)和有序提升(Ordered Boosting),并比较不同配置的效果。你将学习如何使用 CatBoost 进行回归建模、有效准备数据,并分析特征重要性。无论你是数据科学家还是房地产分析师,这篇文章都将帮助你理解并应用 CatBoost,提高预测模型的性能。原创 2025-09-25 10:37:06 · 842 阅读 · 0 评论 -
每个机器学习初学者应掌握的 7 款免费工具
作为机器学习初学者,除了理解算法外,还应熟悉一系列有助于高效构建、跟踪和部署模型的工具。这些工具将帮助你管理数据、跟踪实验、解释模型,并在生产环境中部署解决方案,确保从头到尾的顺畅工作流程。原创 2025-09-25 10:21:01 · 655 阅读 · 0 评论 -
分享 5 个助力你机器学习的免费数据集
线上有许多免费的数据集,可以帮助你练习和学习。这些数据集能让你尝试不同的机器学习技术并提升技能。常见的平台有 Kaggle 和 UCI Machine Learning Repository。以下是五个可以帮助你启动机器学习项目的免费数据集。原创 2025-09-25 10:09:51 · 902 阅读 · 0 评论 -
【机器学习】你可能不知道的 7 个 Scikit-Learn 秘密
具备 Python 编程技能的数据科学家经常使用 Scikit-Learn。它是一个机器学习库,通常最先被教授给新用户,并且可以一直使用到生产环境。然而,大多数被教授的只是基础实现,而 Scikit-Learn 实际上包含了许多可以提升我们数据工作流的秘密。本文将讨论 7 个你可能不知道的 Scikit-Learn 秘密。原创 2025-09-25 10:03:52 · 641 阅读 · 0 评论 -
机器学习模型部署实用指南
作为数据科学家,你可能已经掌握了构建机器学习模型的能力,但真正能发挥价值的是模型部署之后的应用。如果你希望深入了解机器学习模型的部署流程,这份指南将为你提供全面指导。构建和部署机器学习模型的流程通常包括以下几个步骤:构建模型、创建用于提供预测的 API、将 API 容器化,以及部署到云端。原创 2025-09-24 10:29:29 · 564 阅读 · 0 评论 -
10 个能提升你数据科学工作流的 Python 单行代码
Python 之所以成为数据科学领域中最受欢迎的编程语言,是因为它功能多样,并且拥有强大的社区支持。由于应用广泛,我们在数据科学工作流中其实有很多提升效率的方法,而其中一些你可能还未曾了解。本文将介绍 10 个能够提升数据科学工作效率的 Python 单行代码。原创 2025-09-24 10:09:43 · 903 阅读 · 0 评论 -
使用开源工具构建你的第一个聊天机器人
聊天机器人是一种能够与人进行对话的计算机程序。它可以随时回答问题并为用户提供帮助。你无需掌握大量编程知识,也能轻松创建一个聊天机器人。市面上有一些免费的工具,使这一过程既简单又有趣。在本文中,我们将使用一个名为 ChatterBot 的工具,你将学习如何安装它,并训练它进行回应。原创 2025-09-23 22:34:11 · 758 阅读 · 0 评论 -
【机器学习】集成方法 Boosting、Bagging 和 Stacking 详解
集成方法(ensemble methods)是机器学习(ML)中最强大的方法之一——仅次于深度神经网络——通过组合多个模型来解决同一预测任务,从而有效应对复杂数据驱动的复杂问题。本文将介绍构建集成模型的三种常见方式:提升(boosting)、装袋(bagging)和堆叠(stacking)。原创 2025-09-23 22:21:50 · 682 阅读 · 0 评论 -
Python 自然语言处理入门指南
学习自然语言处理(NLP)是提升开发者技能的一个非常实用的补充。从基础概念到基于大型语言模型(LLM)的应用构建,你可以在几周内通过循序渐进的方式掌握 NLP 技能。本文将带你快速入门。在本文中,我们将以 Python 为工具,学习自然语言处理的基础知识——采用以代码实践为主的方法,并使用 NLTK(Natural Language Toolkit,自然语言工具包)进行操作。原创 2025-09-23 20:47:10 · 771 阅读 · 0 评论 -
在生产环境实现机器学习模型优化
本文提供了一份全面的逐步指南,旨在帮助读者应对将机器学习(ML)模型优化应用于生产环境的挑战。指南覆盖了模型开发生命周期的各个阶段,包括模型部署前、部署中及部署后的全过程。文中采用与具体模型或机器学习技术无关的表述方式,讨论的内容适用于大多数机器学习项目。原创 2025-09-23 20:32:27 · 757 阅读 · 0 评论