自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(111)
  • 收藏
  • 关注

原创 保护 AI 代理的两大难题:发现、身份与授权

人与人之间通常能容忍这种宽松,但对能自主行动的代理来说,这种做法行不通。换言之:在代理做对的事情时放行,在出问题时要迅速干预。代理需要唯一且可追溯的身份,并要有完整的生命周期管理。一旦没有清晰的身份及与用户的绑定,代理就成了“匿名行动者”——一旦出问题,很难追溯与归责。市场上已经在不同方向出现解决方案:IGA、客户身份、非人类身份(NHI)以及部分以代理为先的身份/访问中介产品。:在我们能保护一个代理之前,首先要知道它的存在。当我们知道代理存在并知道其代表谁后,就必须控制其能做的事情。

2026-02-11 06:30:00 285

原创 垂直语音代理(Vertical Voice Agents):一个被低估的创业与投资机会

通用/水平市场的语音解决方案虽然可行,但会面临来自大型 LLM 平台与既有厂商的强力竞争。相比之下,聚焦于某一行业或特定工作流的垂直语音代理,能通过行业专有知识实现更高的准确性与现场适配性。垂直化的优势在于:能理解行业上下文、执行合适的工作流、提供更接近人工的来电体验,并能为业主带来立竿见影的商业回报(例如减少错过电话、提高客户体验、保住收入)。这些因素使得对 SMB(中小企业)和有频繁电话需求的行业尤其有吸引力。

2026-02-10 06:30:00 622

原创 治愈 AI 的“失忆症”与其它病症

上下文(Context):类似短期工作记忆,是推理时即时可用的信息(好比内存/RAM)。上下文窗口有限、费用高、且通常在会话间重置。记忆(Memory):长期且持久的外部存储,用于保存可被检索的历史信息,影响模型输出并支持长期学习与个性化。有了持久记忆,代理就能随时间学习、调整行为,并提供更加个性化与持续改进的服务。MMC 用一个记忆助记 APE(Accuracy、Personalisation、Evolution)归纳了记忆的重要价值:准确性、个性化、进化能力。

2026-02-09 18:30:00 293

原创 AI 已经进入金融服务:机构如何采用与面临的阻碍

在金融服务行业,AI 不再是未来概念,而已成为日常业务的一部分。尽管市场对 AI 的兴趣高涨——预计到 2027 年该行业在 AI 上的支出将接近 1000 亿美元——落地过程中仍存在遗留系统、治理合规与难以量化的 ROI 等阻碍。本文基于对数百位金融服务创始人、CIO、运营与产品负责人的访谈,总结了当前机构在采用 AI 时的主要做法、常见场景与阻碍。

2026-02-09 06:30:00 873

原创 AI 的万亿级机会:上下文图(Context Graphs)

当创业公司把代理编排层(orchestration)进行埋点,让每一次决策的执行都发出决策痕迹(decision trace),企业就能得到一种罕见的能力:可结构化、可回放的“为什么会这样”的历史记录。举例:续约代理提出 20% 折扣建议,政策上上限是 10%,除非存在服务影响例外。代理拉取了三条 PagerDuty 的 SEV-1 事件、Zendesk 中未结的“取消除非修复”工单、以及上季度 VP 批准类似例外的线程。代理将例外路由至财务,经审批之后,CRM 里最终只写入“20% 折扣”。

2026-02-08 06:30:00 454

原创 从脚本到系统:2026 年 AI 代理驱动的 Shell 自动化

✅ 到 2026 年,真正的价值不再是你能敲出多少 Bash 语句✅ 你要做的是设计自动化逻辑、控制安全边界、审计 AI 输出✅ 代理不是替代你,而是让你从重复低级工作中解放出来。

2026-02-07 18:30:00 835

原创 2025 年:企业生成式 AI 的现状

2025 年企业在生成式 AI 上的投入达到,较 2024 年显著增长。其中,成为支出最大的一块。越来越多企业选择(2025 年约 76% 的用例采用购买方式)。,反映出企业对能带来即时生产力提升的 AI 方案有很高的购买意愿。在应用层内部,(成为生成式 AI 的首个“杀手级”用例)。

2026-02-07 06:30:00 858

原创 《Python 应用机器学习:代码实战指南》笔记37 机器学习数据集:入门、挑战与成长路径

简单来说,数据集是用于训练、测试和验证机器学习模型的数据集合。这可以是表格数据、图像、文本、时间序列,也可以是合成数据。在专业教程中,大量使用“合成数据集”,这些数据是人为生成的样本,目的是:避免真实世界中存在的数据噪声;控制变量,让学生从简单场景理解核心概念;快速生成不同难度的数据以测试模型的鲁棒性。特征(Features):模型用来学习的输入信息;标签(Labels):监督学习模型预测的目标;训练集:用于模型学习;测试集:用于评估模型泛化能力;验证集(可选):用于模型调参。

2026-02-06 06:30:00 815

原创 移动应用中如何构建基于 AI 的推荐系统(2026 完整指南)

构建 AI 推荐系统不仅是技术实现,更是理解用户行为与产品策略的过程。建议先从简单模型入手,并逐步迁移到边缘智能和混合部署架构。移动应用推荐系统是一场长期战略,而不是一次功能更新。以数据质量为基础,逐步迭代优化,才能打造真正个性化、高留存的用户体验。

2026-02-05 18:30:00 1738

原创 《Python 应用机器学习:代码实战指南》笔记36 从零开始:Python 机器学习实战代码片段详解

这份代码片段集合的核心价值,不在于它 “展示了多少算法”,而在于它让你学会如何把知识转化成代码,并能在实践中快速调用与测试。与其盲目背诵模型公式,不如先掌握这些实用的写法,再慢慢填补理论基础。未来你可以用这套代码:快速构建自己的模型实验框架对新数据集测试不同算法效果将最优模型部署到生产环境希望这份实战代码片段能成为你迈向数据科学技术栈的第一块基石。(本文内容基于Pyrcz, M.J., 2024,

2026-02-05 06:30:00 462

原创 《Python 应用机器学习:代码实战指南》笔记35 时序数据建模:机器学习中的时间洞察与预测

在数据科学实践中,时序分析无疑是最接近现实世界动态的领域之一。我们不是在处理静态的表格,而是在解读时间的流动。从趋势到季节,从自相关到预测模型,每一步都需要谨慎和耐心。学习时序分析不仅是掌握一门技术,更是提升“洞悉时间规律”的能力。掌握了这套方法,你就能更好地预测未来,在数据洪流中抢得先机。未来的数据领域,将属于那些能真正理解时间、驾驭时间的人。(本文内容基于Pyrcz, M.J., 2024,[e-book]. Zenodo. doi:10.5281/zenodo.15169138章节整理) (

2026-02-04 06:30:00 551

原创 我用 Vibe Code 做出了漂亮的 Web 应用,但 AI 依然无法为 Google Search 自动生成一个简单的 Sitemap

即便现在有很多所谓的 AI 构建平台能快速帮你做 Web 应用和前端交互,但在SEO、搜索引擎索引 机制这样的细节上,它们依然表现得非常粗糙。AI 生成代码固然方便,但它并不能完全替代开发者对底层原理的理解。如果你想让自己的网站被 Google 真正收录、被用户检索到,还是需要对 Sitemap、域名策略、响应头、内容更新策略等有深入控制。AI 只是帮你提高速度,不是替代专业。

2026-02-03 18:30:00 1147

原创 《Python 应用机器学习:代码实战指南》笔记34 当机器开始“自我对抗”:GAN 为什么会改变人工智能的未来

很多技术,在出现之初都显得晦涩难懂。但真正改变行业的,往往正是这些“反直觉”的思想。GAN 用最简单的对立关系,解决了最复杂的生成问题。它告诉我们:有时候,最好的学习方式,不是被教导,而是被挑战。如果你能真正理解 GAN 的逻辑,那么你理解的已经不只是一个模型,而是机器如何开始接近“创造力”的第一步。这,才是生成对抗网络真正的价值所在。(本文内容基于Pyrcz, M.J., 2024,

2026-02-03 06:30:00 589

原创 《Python 应用机器学习:代码实战指南》笔记33 揭秘 Autoencoder:一文读懂深度学习中的“自编码器”

Autoencoder 虽然看起来结构简单,但它承载着:对高维数据进行非线性降维;提取最具信息量的表示;为复杂生成模型(如 VAE、GAN)打基础;的深刻意义。如果你想构建能“理解”数据的模型,而不是只关注标签预测,那么 Autoencoder 是入门深度学习不可或缺的一块基石。

2026-02-02 06:30:00 533

原创 《Python 应用机器学习:代码实战指南》笔记32 CNN到底是什么?看完这篇你也能讲给朋友听!

⭐保留空间信息不再丢弃图像的结构信息,这是普通神经网络做不到的。⭐自动学习特征不像传统方法需要手工设计特征,CNN 能自己学习。⭐对位置变化鲁棒不怕图像里物体稍微移动、变形或缩放。卷积神经网络看起来复杂,其实本质上就是“聪明地分块处理图像信息然后组合成认知”。理解了它的思路,再去看深度学习库的 API,你会发现其实也并没有那么难。如果你已经懂这些,那么下一步就可以探索更高级模型如 ResNet、DenseNet 或视觉 Transformer 等现代架构了。👨‍💻作者寄语。

2026-02-01 06:30:00 455

原创 《Python 应用机器学习:代码实战指南》笔记31 人工神经网络(ANN)完整解析:从原理到训练一文通

人工神经网络是一种模拟生物神经系统的数学计算模型,由大量相互连接的节点(神经元)构成。每个节点代表一个简单的处理单元,它能接收输入信号,进行加权求和,并经过激活函数输出结果。系统通过调整这些连接权重来学习输入与输出之间的复杂关系。通俗来说,它的设计灵感来自于我们人脑的大量神经元之间复杂的连接方式,通过模仿这种连接机制来建立模型。人工神经网络不只是一个算法,而是机器学习领域的核心思维模型。只有深入理解它的结构与工作机制,才能更好地驾驭深度学习与智能系统的设计。

2026-01-31 06:30:00 827

原创 《Python 应用机器学习:代码实战指南》笔记30 深度学习核心 | 激活函数完全指南:Sigmoid、Tanh、ReLU 到现代变体

很少有网络结构设计会像激活函数那样看似简单,却对最终效果影响巨大。它看似是一个小函数,却决定了“非线性学习能力”的底层逻辑。从 Sigmoid 到 ReLU,从简单到复杂,每一次进化都代表着对更高效率、更稳定训练的不断追求。如果你想真正掌握深度学习,那么对激活函数的理解,不应停留在公式,而是要理解它在数据流与梯度传播中的角色。(本文内容基于Pyrcz, M.J., 2024,[e-book]. Zenodo. doi:10.5281/zenodo.15169138章节整理) (

2026-01-30 06:30:00 2517

原创 《Python 应用机器学习:代码实战指南》笔记29 用支持向量机 SVM:一文读懂这款“最优分类边界”神器及实战技巧

🎯二分类问题—— 性能稳健🎯 图像分类基础实验🎯 文本分类 / 情感分析🎯 特征不是特别多时的最优选择之一它不如深度学习那样千变万化,但它有:💡 清晰的数学目标💡 精准的分类边界💡 可解释性比很多黑盒模型强如果你真正理解了 SVM 的“边界 + 支持向量 + 核技巧”这三个核心,你就基本掌握了它的本质。最复杂的算法未必最好,最稳定、可解释、能解决问题的算法才是工程师的真正武器。✨(本文内容基于Pyrcz, M.J., 2024,

2026-01-29 06:30:00 589

原创 《Python 应用机器学习:代码实战指南》笔记28 梯度提升树(Gradient Boosting Trees):从入门到深度理解

简单来说:梯度提升是一种。

2026-01-28 06:30:00 562

原创 《Python 应用机器学习:代码实战指南》笔记27 从一棵树开始:机器学习中最强大的秘密武器 —— 集成树模型

从单棵树的孤单判断,到无数树共同讨论出更准确的结论,集成树方法是机器学习中最朴素但又最有力量的智慧之一。它用简单的思想,通过“集体智慧”来实现对复杂世界的良好拟合。真正的强者,往往是由无数弱者合理组合而成。(本文内容基于Pyrcz, M.J., 2024,[e-book]. Zenodo. doi:10.5281/zenodo.15169138章节整理) (

2026-01-27 06:30:00 530

原创 《Python 应用机器学习:代码实战指南》笔记26 决策树详解:从入门到实战理解(机器学习教程的精华提炼)

想象一下你在做选择题:你先看第一个标准,然后决定往左还是往右;接着再看第二个判断点,如此一层一层决策。这就是决策树的基本思想:将特征空间划分成若干不重叠的区域;每个区域给出一个预测值(回归用平均值,分类用最常见类别)。简单来说:对于回归任务,预测值用所在区域训练样本的平均值;对于分类任务,根据训练集中出现次数最多的类预测。这样一来,每一个预测都是从“树根”到“叶子”的逻辑分割路径决定的。决策树不是用来赢得比赛,而是用来:👉 理解机器学习的分割与预测逻辑。

2026-01-26 06:30:00 554

原创 《Python 应用机器学习:代码实战指南》笔记25 机器学习中的 k-Nearest Neighbours(KNN)算法完整解析

基于这一直观观念,KNN 在很多应用场景都表现得足够好,特别是当数据量较小、结构清晰时,它能快速给出可解释性强的预测结果。这种算法无需复杂的训练过程,仅通过测量数据样本之间的距离,就能实现分类或预测,是入门机器学习不可或缺的基础模型。KNN 算法并不追求数学上的复杂性或深奥的推导,而是强调“数据本身”的力量。预测阶段主要依赖距离度量(常用的是欧氏距离),即样本之间的近邻关系。在机器学习算法的世界里,有一类方法既简单易懂,又广泛适用,它就是。,它不依赖假设模型参数,而是通过数据本身来做决策,这种方法被称为。

2026-01-25 06:30:00 1097

原创 《Python 应用机器学习:代码实战指南》笔记24 深度理解多项式回归(Polynomial Regression):从线性回归到非线性拟合的桥梁

多项式回归看似复杂,其实本质非常朴素:👉 它是用变换后的特征再用线性模型拟合的方法。👉 它兼顾了线性回归的简洁和非线性拟合的能力。👉 但也必须谨慎控制模型复杂度,避免过拟合。如果你在机器学习的路上遇到“线性模型不够用”的情况,不妨从多项式回归开始尝试。它能让你在最熟悉的线性世界中,完成对非线性关系的捕捉。(本文内容基于Pyrcz, M.J., 2024,[e-book]. Zenodo. doi:10.5281/zenodo.15169138章节整理) (

2026-01-24 06:30:00 1108

原创 《Python 应用机器学习:代码实战指南》笔记23 机器学习中的秘密武器:朴素贝叶斯算法全解析

朴素贝叶斯是一种基于贝叶斯定理的概率分类算法,它最大的特点在于:在给定类别的前提下,假设各个特征之间是条件独立的。也就是说,它认为一个特征是否出现与其他特征是否出现无关。听起来是不是有点冲?这正是它“朴素”的原因,但正是这个简单假设,让它算法变得极其高效。🔹 它是一种基于概率而非黑盒优化的方法。🔹 它迭代简单,易于理解与实现。🔹 它在实际问题尤其是高维文本任务中表现出色。🔹 即使你将来用更强的模型,它仍旧是一个「最有效的 baseline」。

2026-01-23 06:30:00 499

原创 《Python 应用机器学习:代码实战指南》笔记22 贝叶斯线性回归(Bayesian Linear Regression)详解与实战

贝叶斯方法的核心思想是“先验 + 数据 = 后验即:P(\text{参数}|\text{数据}) = \frac{P(\text{数据}|\text{参数}) \cdot P(\text{参数})}{P(\text{数据})}先验(Prior):表示数据到来之前对参数的相信程度。似然(Likelihood):数据在固定参数下出现的可能性。后验(Posterior):数据给出后对参数的更新相信程度。证据(Evidence):用于归一化,使概率密度总和为 1。答案是肯定的。

2026-01-22 06:30:00 1078

原创 《Python 应用机器学习:代码实战指南》笔记21 全面理解 LASSO 回归:从原理到实战解析

在机器学习和统计建模中,线性回归是最早也是最常用的预测模型之一。然而,当数据维度增高、特征相关性加强或样本数量有限时,传统的最小二乘线性回归往往会出现过拟合、参数不稳定等问题。为了解决这些问题,我们引入了。在众多正则化方法中,**LASSO 回归(L1 正则化回归)因其独特的“特征选择”功能而备受关注。它不仅能提高模型的泛化能力,还可以自动筛除不重要的特征,简化模型结构。

2026-01-21 06:30:00 1310

原创 《Python 应用机器学习:代码实战指南》笔记20 ​​​​​​​Ridge Regression(岭回归):从线性回归到正则化的实战解析

Ridge Regression 本质上一种带有L2 正则化项目标函数 = 原始误差 + λ * 参数平方和λ(lambda)是正则化强度的超参数;L2 惩罚项是所有回归系数的平方和。这种设计的核心目的就是:在追求拟合训练数据的同时,尽量让模型参数不至于过大,从而降低模型的复杂度,改善模型在测试数据上的表现。与传统的线性回归相比:当 λ → 0 时,Ridge Regression 退化为普通线性回归;随着 λ 增大,模型对参数的限制更强,参数趋近于 0,模型更简单。

2026-01-20 06:30:00 663

原创 《Python 应用机器学习:代码实战指南》笔记19 ​​​​​​​线性回归:从入门到理解 —— 机器学习最基础也是最关键的预测模型

线性回归不是一个“必须记住的公式”,它是一个理解机器学习思想的入口。理解它的本质,就是由简单到复杂、由理论到实践的开始。当你理解了它:你就能更好地理解机器学习;你就不会被复杂的名词吓倒;你就能从容应对更难的问题。(本文内容基于Pyrcz, M.J., 2024,[e-book]. Zenodo. doi:10.5281/zenodo.15169138章节整理) (

2026-01-19 06:30:00 1632

原创 《Python 应用机器学习:代码实战指南》笔记18 ​​​​​​​从入门到实战:用 scikit-learn 实现预测型机器学习

这份教程不仅仅教你写代码,它让你:✅ 理解预测模型的本质✅ 清楚机器学习的完整工作流✅ 掌握简单调参与评估方法✅ 学会 Pipeline 规范流程写法机器学习不是学“会”,而是学“用”。现在你已经具备了从数据到模型,再到评价的一套闭环能力!如果你想快速实践或者用这个流程改写成更复杂的预测任务,这篇文章已经为你打好了坚实基础!(本文内容基于Pyrcz, M.J., 2024,[e-book]. Zenodo. doi:10.5281/zenodo.15169138章节整理) (

2026-01-18 06:30:00 523

原创 《Python 应用机器学习:代码实战指南》笔记17 ​​​​​​​随机投影:一种高效的降维利器

随机投影是一种通过随机生成的线性变换矩阵,将原始高维数据映射到低维空间的技术。其核心目标是:在不显著损失数据信息的前提下,快速压缩数据维度,从而加速数据处理与机器学习流程。这听起来是不是有点抽象?举个生活中的比喻:就像把一张很大的地图压缩成缩略图,虽然细节减少了,但最重要的路线关系仍然保留了大部分。随机投影是一种简单、快速且理论支持充足的降维方式。它用一个随机生成的线性映射,把高维数据压缩到低维空间,同时尽可能保持数据内部的距离结构。

2026-01-17 06:30:00 616

原创 《Python 应用机器学习:代码实战指南》笔记16 解密机器学习核心降维方法:多维尺度分析(MDS)深度解读与实践

多维尺度分析是一种通过保持原始数据之间的距离关系,将高维数据映射到低维空间的技术。这个过程强调的不是特征本身的数值,而是各个数据点之间距离或相似度的关系。只要我们知道每对数据点之间距离是多少,MDS 就能根据这些距离构建出在二维或三维空间的展示图。维基百科换句话说,它回答了一个关键问题:在低维空间中,数据点彼此之间的相对关系还能保持真实吗?理解数据间的真实关系,而不是特征值的内部结构;在可视化维度里重构数据间的距离与相似度;将复杂高维数据转换成直观图形展示;那么 MDS 是一个不可或缺的工具。

2026-01-16 06:30:00 1272

原创 《Python 应用机器学习:代码实战指南》笔记15 用主成分分析(PCA)突破数据维度的困局 —— 从复杂到简单,你不可不知的数据降维利器

在数据科学和机器学习的世界里,一句话永远不会过时:“数据越多并不等于信息越有效。”当你面对一个拥有十几、几十甚至上百个特征的数据集时,你可能会立刻陷入以下困境:数据难以可视化;对模型的推断要求更高;训练时间更长,结果更复杂;特征之间可能存在冗余或高度相关性。这些问题其实都源于一个共同的挑战 —— 维度太高。主成分分析(PCA)正是为了解决这个问题而诞生的一种经典方法,可以帮助我们用更少的数据维度来表达原始数据的核心信息,从而提升效率和理解能力。 (geostatsguy.github.io)试想一下,如果

2026-01-15 06:30:00 583

原创 《Python 应用机器学习:代码实战指南》笔记14 当距离不再可信:谱聚类,给机器一个“看结构”的眼睛

谱聚类真正教会我们的,不是某个矩阵、某个公式,而是一种思维方式:当世界变得复杂时,不要急着去“算得更精确”,而是先问一句:我是不是看错了问题的角度?当你学会从“点”走向“关系”,从“距离”走向“结构”,你会发现——很多曾经无解的问题,其实只是换个视角就能解决。这,才是谱聚类真正的价值所在。(本文内容基于Pyrcz, M.J., 2024,[e-book]. Zenodo. doi:10.5281/zenodo.15169138章节整理) (

2026-01-14 06:30:00 325

原创 《Python 应用机器学习:代码实战指南》笔记13 揭密机器学习中最强聚类法:DBSCAN,带你用“密度思维”看世界!

今天我们要讲的,不是最常见的 K-Means,不是层次聚类,而是。传统的聚类算法,比如 K-Means,往往假设每个簇是圆形或球形,并强制规定簇的数量。一个点属于 A 类簇,并不取决于它离中心的距离有多近,而是看它是否通过一系列密度连接的路径连到了某个核心点。边界点本身周围没有足够多的点达标为核心点,但它落在某个核心点的邻域内,因此被归为该核心点所属的簇。这类点既不是任何核心点的邻域内点,也没有足够密度,它们被视为数据中的噪声或异常。人群的形状不一定是圆的,也可能是弯曲的线、星状……

2026-01-13 06:30:00 683

原创 《Python 应用机器学习:代码实战指南》笔记12 深度理解机器学习中的 聚类(Clustering)

聚类其实非常简单,是机器学习里最直接、最具洞察力的技术之一。简单来说:聚类就是让相似的数据自己归到一起,把不相似的数据分开。想象一下:你有一堆人,没有名字、没有标签,你让机器把他们按年龄、兴趣甚至行为分类。最后你惊讶地发现:原来这些人根本没必要手动贴标签,机器自己就分出了有意义的组。关键特点:不需要标签(这是和监督学习最本质的不同)把相似的东西聚在一起,不相似的分开这就是一种无监督学习方法,大部分聚类任务都属于这种类型也就是说,当我们无法提前知道数据类别时,聚类能让隐藏的模式自己浮现。

2026-01-12 06:30:00 1542

原创 《Python 应用机器学习:代码实战指南》笔记11 从数据死角到模型“救赎”:特征缺失值插补全攻略

缺失值插补看似基础,但却直接影响整个机器学习项目的质量。理解缺失值的来源、影响,再配合恰当的插补策略,是成为数据工程/机器学习工程师的必备技能。无论你是初学者还是实战者,只要掌握了插补这一步,数据就真正站在了你这边。(本文内容基于Pyrcz, M.J., 2024,[e-book]. Zenodo. doi:10.5281/zenodo.15169138章节整理) (

2026-01-11 06:30:00 1496

原创 《Python 应用机器学习:代码实战指南》笔记10 从零理解机器学习中的特征排名:核心原理与实用方法

特征排名本质上就是给每个候选输入变量打分,以衡量它对目标预测的贡献大小。通过这些评分,我们就能按从高到低的顺序确定各特征的重要程度。简单来说,它是在回答这样一个问题:“在这个预测任务中,哪些变量最值得我们关注?”这个过程既可以辅助特征选择,也可以提升模型的可解释性。特征排名不是一个单一的技术点,而是贯穿整个机器学习流程的数据准备核心环节。通过合理的排名方法,你可以:快速识别有价值的变量提升模型表现和可解释性降低训练成本和工程复杂度掌握这些基本原理和方法,能让你在面对复杂数据集时更游刃有余。

2026-01-10 06:30:00 753

原创 《Python 应用机器学习:代码实战指南》笔记9 特征变换:机器学习的关键桥梁

并不是所有数据都能靠常规方法得到理想效果。根据业务理解自定义映射函数、提取组合特征,会使模型拥有更强的表达能力。

2026-01-09 06:30:00 1757

原创 《Python 应用机器学习:代码实战指南》笔记8 深度揭秘:机器学习中的多变量分析,这次听完就能理解!

简单来说,多变量分析指同时观察和分析多个变量的数据,并理解变量之间的相互关系。与只看两个变量的“成对分析”不同,多变量分析专注于整体模式。在数据集中,变量并不是孤立的:一个变量可能受其他变量影响多个变量之间可能存在复杂的依赖关系有些变量的组合可能比单个变量更能解释数据结构所以我们要做的不是孤立“看”变量,而是整体“理解”变量组合的意义。它不仅是机器学习的理论基础,更是让你的数据分析结论更可靠、更深刻、更有洞察力的关键技术。

2026-01-08 06:30:00 606

原创 《Python 应用机器学习:代码实战指南》笔记7 单变量分析:机器学习入门最关键的一步

单变量,就是只关注一个变量的数据进行分析,而不是多个变量之间的关系。这个分析的目的非常直接:看清楚变量的分布状态判断变量是否有异常值或偏态为后续多变量分析、特征选择、模型训练奠定基础单变量分析不会告诉你两个变量之间有多大关系,但它会回答这个变量“值是什么样的?”、“有没有值得注意的问题?”等基本问题。维基百科不管你后面选择什么模型:决策树线性模型集成模型神经网络都应该在建模前先做单变量分析。它帮助你:✔️ 看懂每个变量的散布情况✔️ 判断变量是否需要标准化、归一化、转换。

2026-01-07 06:30:00 783

2049未来10000天的可能 (美凯文·凯利 著吴晨 编著)

这本《2049》就是要立足中国视角,结合中外观点,在充分沟通的基础之上,展望未来25年的变化。 与凯利一起创作本书是我人生中最愉悦的一段经历。 本书以凯利的口吻著述,第1章至终章是在我与凯利的深度对话基础之上编辑而成的,结语部分则是我从另一视角对全书观点的总结。希望我与凯利的对话能开启一种全新的跨国与跨界的创作范式,让更多立足中国的思考可以加入全球重大议题的讨论。——吴晨

2025-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除