輕華-CSDN博客

原创矿物成分数据智能分类实战（二）：以平均值填充数据集的 XGBoost 与 AdaBoost 为例

本文以矿物分类任务为例，详细阐述了机器学习项目中的数据处理与模型训练全流程。研究采用6种缺失值填充策略，重点分析了平均值填充后XGBoost和AdaBoost模型的性能表现。通过网格搜索优化超参数，结果表明：在平均值填充数据集上，AdaBoost整体表现更优，准确率达95.79%，类别3召回率94.44%，均优于XGBoost。研究验证了集成算法在多分类任务中的有效性，为后续探索"最优填充+最优模型"组合奠定了基础。完整代码和评估结果已开源，确保实验可复现。

2026-03-19 22:27:21 139

原创矿物成分数据智能分类实战（一）：从脏数据到可用数据集的全流程清洗

经过上述全流程处理，我们得到了无缺失值、无异常值、无量纲差异、类别平衡所有特征列无缺失值，填充过程严格避免数据泄露；异常值全部完成标准化处理，符合模型输入要求；特征完成标准化，消除量纲影响；训练集类别完全平衡，解决了样本分布不均的问题。

2026-03-19 21:12:20 64

原创 OpenCV 实战：票据透视矫正 + 直方图画质增强，开箱即用的工业级代码

在计算机视觉日常开发中，我们总会遇到两类高频痛点：一是倾斜拍摄的票据、文档无法直接用于 OCR 识别，二是过暗、过曝、对比度不足的图像丢失关键细节。本文基于 OpenCV，拆解两大核心解决方案 ——

2026-03-18 22:46:55 422 1

原创【OpenCV 实战】零基础搞定银行卡号识别（下）：卡号定位 + 模板匹配 + 完整代码落地

本文介绍了一个基于OpenCV的银行卡号识别系统实现方案。系统通过形态学运算（顶帽运算、闭操作）突出卡号区域，利用轮廓检测定位数字组，采用模板匹配技术识别单个数字。文章详细阐述了图像预处理、轮廓筛选、数字分割和模板匹配等关键步骤，并提供了完整可复现的Python代码。该系统无需深度学习，仅依赖传统图像处理技术即可实现银行卡号的精准识别，识别率较高。作者还提出了倾斜校正、模糊增强、多字体适配等优化方向，为后续改进提供思路。该项目适合作为OpenCV入门实践案例，帮助理解图像处理在字符识别中的应用。

2026-03-18 06:30:00 680 1

原创【OpenCV 实战】零基础搞定银行卡号识别（上）：核心原理 + 工具封装 + 模板预处理

封装了轮廓排序、图像缩放两个核心工具函数完成了数字模板的预处理，构建了 0-9 的标准模板库，为后续匹配做好了准备下篇我们将进入核心的银行卡识别环节，带大家完成：银行卡图像预处理、卡号区域精准定位、单数字分割、模板匹配识别，最终实现卡号的自动输出，完整代码可直接运行！

2026-03-17 21:43:18 640

原创 OpenCV 实战教程：模板匹配全解析 + 旋转不变性多目标匹配实现单目标匹配 + 图像旋转 + 多方向多目标匹配全实战（附完整可运行代码）

本文详细介绍了OpenCV模板匹配的实现方法，从基础的单目标匹配到支持旋转不变性的多目标匹配。主要内容包括：1）OpenCV模板匹配核心API与6种匹配算法对比；2）单目标匹配完整实现代码；3）图像旋转的两种高效方法；4）支持旋转的多目标匹配实战方案。文章提供了详细的代码注释、运行效果演示和实战避坑指南，并给出了扩展优化方向，如任意角度旋转适配和缩放不变性实现等。所有代码保持原生可运行状态，适合计算机视觉新手和需要快速落地模板匹配的开发者参考使用。

2026-03-17 06:30:00 643 1

原创 OpenCV 图像金字塔全解析：高斯金字塔上下采样 + 拉普拉斯金字塔图像复原 | 附完整实战代码

本文深入讲解了计算机视觉中的图像金字塔操作，重点解析了高斯金字塔和拉普拉斯金字塔的原理与实现。通过Python+OpenCV代码演示，详细介绍了pyrDown和pyrUp函数的使用方法，解释了为何下采样再上采样会导致图像模糊，以及如何利用拉普拉斯金字塔保存残差信息实现无损图像复原。文章包含完整可运行代码示例，涵盖了高斯模糊、降采样、残差计算等关键步骤，并指出了常见应用场景和避坑指南。特别强调了下采样过程中丢失高频细节的特性，以及通过拉普拉斯金字塔实现完美复原的技术方案，为图像处理中的多尺度操作提供了实用指导

2026-03-16 21:55:20 681 1

原创 Python 实战：基于朴素贝叶斯的中文评价情感分析（好评 / 差评自动识别）| 附完整可运行代码

本文完整实现了从原始评价文本到自动情感分类的全流程，解决了中文分词、文本向量化、数据不平衡等核心问题，最终实现了用户输入任意评价自动判断好评 / 差评的功能，可直接落地到电商评价分析、客服消息情感识别等场景。继续爬取差评，增加真实差评数量。进而增加差评训练能力词向量优化：用替代，给有区分度的词更高权重，进一步提升分类效果模型优化：使用专为不平衡文本分类设计的模型，或尝试 SVM、随机森林、XGBoost 等算法功能拓展。

2026-03-16 21:13:33 627 1

原创 Python 命令行参数处理：sys.argv 与 argparse 深度对比

Python提供了sys.argv和argparse两种命令行参数处理方式。sys.argv是内置模块，轻量高效但需手动解析，适合简单脚本；argparse功能全面，支持自动解析、类型校验和帮助生成，适合复杂场景。测试显示sys.argv执行更快但差异微小。建议简单需求用sys.argv快速实现，复杂工具用argparse确保可维护性。两者各有优势，开发者应根据参数复杂度、项目规模选择合适方案。

2026-03-14 21:46:55 692

原创 OpenClaw 本地部署完全指南：从零开始搭建你的 AI 助手（飞书接入实战）

本地部署全流程指南，祝你轻松拿下openclaw本地部署

2026-03-14 21:01:49 827

原创 GPT-5.4 vs Claude 4.6 2026 实测：从代码生成到 Agent 编排，程序员该选哪个 AI 助手？

2026年AI编程助手选型指南：GPT-5.4 vs Claude4.6 通过对OpenAI GPT-5.4和Anthropic Claude4.6的实测对比，本文得出关键结论： GPT-5.4在单环节代码能力（补全/Bug修复/终端命令）上更优，继承了Codex全部能力； Claude4.6在长上下文处理（1MToken）和全量代码库分析上优势明显；最佳实践是组合使用：Claude4.6用于架构设计/代码审查，GPT-5.4用于日常编码/AI智能体工作流。研究表明，AI不会淘汰程序员，而是淘汰不会使用

2026-03-13 23:15:42 572

原创爆火全网的 OpenClaw：给大模型装上 “钢铁之爪”，AI 智能体的平民革命还是狂欢陷阱？

OpenClaw 的爆火，从来不是偶然。在它之前，AI 智能体概念已经火了两年，无数大厂、创业公司都推出过相关产品，但始终没能走出极客圈。过去三年，大模型的推理能力已经达到了前所未有的高度，但始终卡在 “说” 和 “做” 之间的鸿沟里。你让 GPT 写一个 Python 脚本，它能给你完美的代码，但你还是要自己复制到编辑器里、安装依赖、调试运行、处理报错。

2026-03-12 20:45:03 738 3

原创零基础吃透 CNN 卷积神经网络：MNIST 手写数字识别实战全解（附完整可运行代码）

这篇文章，我们从 MNIST 手写数字识别的实战代码出发，完整拆解了 CNN 卷积神经网络的核心原理、网络结构、训练逻辑，不仅让你能跑通代码，更能搞懂代码背后的 “为什么”。CNN 的本质，就是通过卷积层逐层提取图像的底层→中层→高层特征，用参数共享和池化降维解决全连接网络的痛点，最终通过全连接层完成分类任务。这套逻辑不仅适用于手写数字识别，更是所有图像分类、目标检测、图像分割等计算机视觉任务的基础。

2026-03-12 20:12:56 743 1

原创 OpenCV 实战封神榜（下）：轮廓检测 + 模板匹配，从特征提取到精准匹配

本文介绍了OpenCV中轮廓检测和模板匹配两大核心技术。轮廓检测通过灰度化、二值化处理图像后，使用findContours查找闭合边缘，drawContours绘制轮廓，并可进行面积、周长等特征分析，实现目标形状提取。模板匹配则通过matchTemplate计算相似度，minMaxLoc定位最佳匹配位置，实现精准目标检索。文章提供了完整的代码示例和效果分析，展示了从边缘检测到目标定位的完整流程，是计算机视觉中目标识别的基础方法。

2026-03-10 21:32:23 1343 1

原创 OpenCV 图像处理（中）：吃透边缘检测！Sobel/Scharr/Laplacian/Canny 全解析

本文详细介绍了OpenCV中四种常用的边缘检测算子：Sobel、Scharr、Laplacian和Canny。Sobel算子通过X/Y方向一阶导数检测边缘，需转换为64位浮点型保存梯度信息；Scharr是Sobel的增强版，对微小边缘更敏感；Laplacian算子通过二阶导数检测所有方向边缘，但对噪声敏感；Canny算法是多步骤的最优边缘检测方案，包含去噪、梯度计算、非极大值抑制和双阈值筛选等步骤。文章提供了各算子的实战代码和效果对比，建议根据实际需求选择合适的算子：通用场景用Sobel，细节丰富图像用Sc

2026-03-10 20:49:17 1267 2

原创开箱即用！商品评价爬虫实战，好评差评数据直接拿

本文通过 Python+Selenium 实现了苏宁商品好评 / 差评的爬取，核心是利用 Selenium 处理动态页面的翻页交互，通过定位类提取评价文本，结合类判断翻页终点。爬取的文本数据是情感分析的基础，后续结合词向量转换和分类模型，即可完成 “文本情感判断” 的核心需求。对于 NLP 初学者而言，数据爬取是情感分析的第一步，掌握这类实战场景的爬虫技巧，能为后续的模型训练和应用落地打下坚实基础。

2026-03-09 21:33:35 1577 1

原创 OpenCV 图像处理实战（上）：阈值、平滑滤波与形态学操作从原理到代码

本文系统介绍了OpenCV图像处理的核心技术，主要包括三大部分：1. 阈值处理：详细讲解五种二值化分割方法（THRESH_BINARY、THRESH_BINARY_INV等）的原理、API参数及实际应用场景；2. 图像平滑：分析四种滤波技术（均值、高斯、中值、方框）的特点、适用场景及代码实现，并给出选型建议；3. 形态学操作：涵盖基础操作（腐蚀、膨胀）、组合操作（开闭运算）及进阶操作（梯度、顶帽、黑帽）的原理与实战应用。全文通过大量代码示例和效果对比，帮助读者快速掌握OpenCV图像处理的关键技术。

2026-03-09 20:45:38 801 1

原创【零基础入门】SQL 核心语法精讲：外键约束与多表查询全解析（进阶篇）

外键约束是用于建立和强制两张数据表之间关联关系的约束，是保证多表之间参照完整性的核心手段。主表（父表）：被引用的表，提供关联的基准数据，外键引用的列必须是主表的主键或唯一键从表（子表）：添加外键约束的表，其外键列的值必须引用主表中已存在的记录，避免出现 “脏关联数据”举个例子：我们有分类表category（主表）和商品表goods（从表），商品的分类 ID 必须关联分类表中已存在的分类主键，这样就不会出现 “商品归属了一个不存在的分类” 的问题，从根源上保证了多表数据的一致性。外键约束。

2026-03-08 21:39:18 1269

原创从零吃透 PyTorch 神经网络：从核心原理到手写数字识别全实战

本文从神经网络底层原理出发，结合PyTorch框架实现MNIST手写数字识别任务。首先讲解多层感知器(MLP)的核心组件：权重偏置、激活函数(ReLU)、损失函数(CrossEntropyLoss)及反向传播机制。随后详细介绍PyTorch开发流程：数据加载(DataLoader)、模型定义(nn.Module)、训练循环(前向传播→损失计算→反向传播→参数更新)和测试验证。通过完整代码示例，展示如何构建包含两个隐藏层的神经网络，最终达到95%以上的测试准确率。文章还分析了训练过程中的常见问题(梯度消失、过

2026-03-08 14:44:35 1220

原创深度学习环境搭建全指南：CUDA 安装 + PyTorch 全家桶保姆级教程

对于深度学习入门者来说，90% 的人都会卡在第一步 —— 环境搭建。CUDA 版本不兼容、PyTorch 安装失败、GPU 无法调用、命令行报错找不到指令，这些问题几乎是每个新手的必经之路。本文将手把手带你完成CUDA 工具包安装配置，以及PyTorch 核心库（torch/torchvision/torchaudio）的安装，全程标注高频踩坑点，跟着步骤走，就能一次性搞定 GPU 加速的深度学习环境。

2026-03-07 20:42:26 865

原创基于 TF-IDF 的《红楼梦》分回核心关键词提取实战

本次实战基于 Python 完成了《红楼梦》从 “文本拆分→分词处理→TF-IDF 关键词提取” 的全流程，不仅验证了 TF-IDF 算法在古典文本分析中的有效性，也通过关键词挖掘直观呈现了《红楼梦》各回的核心内容。该方法可迁移至其他古典小说（如《三国演义》《水浒传》）的文本分析，为古典文学研究提供数据支撑。从技术角度来看，本次实战整合了 “文件操作”“正则匹配”“中文分词”“机器学习算法” 等多个 Python 核心技能，是文本挖掘入门的经典实战案例。

2026-03-07 15:58:31 995 3

原创一文吃透 TF-IDF：从核心原理到 Python 实战，解锁 NLP 关键词提取核心技能

TF-IDF 作为自然语言处理领域最经典的算法之一，虽然如今 Transformer、BERT 等大模型已经成为 NLP 的主流，但 TF-IDF 的核心思想 ——“用频次与覆盖度衡量词汇的重要性”，依然是文本处理的底层逻辑。它不仅是 NLP 入门的必学算法，更是很多业务场景中最高效、最稳定的解决方案。掌握了 TF-IDF 的原理与实战，你就掌握了文本数据分析的核心抓手，为后续更复杂的 NLP 任务打下了坚实的基础。

2026-03-07 14:59:59 858 1

原创【零基础入门】SQL 核心语法精讲：约束（Constraint）全解析（单表约束篇）

本文系统讲解SQL单表约束的用法，包括主键、非空、唯一和默认约束。主键约束具有非空和唯一特性，常配合自增(auto_increment)使用；非空约束要求列值必须填写；唯一约束确保列值不重复；默认约束为未赋值的列提供默认值。通过学生表和员工表的实战案例，演示了各约束的具体应用和常见错误处理，并对比了DELETE和TRUNCATE对自增ID的不同影响。文章还提供了约束修改方法和避坑指南，帮助开发者确保数据完整性和有效性。

2026-03-05 14:04:40 983

原创 OpenCV 零基础入门实战：从环境部署到图像 / 视频核心操作

本文为零基础学习者提供OpenCV入门教程，涵盖环境部署、图像处理、视频操作等核心知识点。首先介绍使用清华镜像源安装OpenCV 3.4.18.65版本的步骤，确保稳定性和兼容性。详细讲解图像读取、显示、保存等基础操作，包括彩色图和灰度图的处理方法，以及图像属性的分析。视频处理部分讲解如何读取摄像头或视频文件，并进行实时灰度转换。此外还介绍了颜色通道的拆分与合并技巧，以及图像修改和缩放的两种方式。教程所有代码均附带详细注释，适合新手直接运行学习，并特别提示了常见错误和解决方法，帮助学习者快速掌握OpenCV

2026-03-05 13:58:16 924

原创一文吃透贝叶斯算法：从数学原理到 Python 代码实战（附完整可运行案例）

本文系统介绍了贝叶斯算法及其工程化应用。首先阐述了贝叶斯定理的核心思想，通过正向概率与逆向概率的对比，说明了贝叶斯算法在解决逆向概率问题上的优势。详细推导了贝叶斯公式，并通过穿长裤学生、色盲检测等案例进行直观解释。重点介绍了朴素贝叶斯分类器的特征条件独立假设及其三种常见实现。最后基于鸢尾花数据集，使用Python实现了完整的朴素贝叶斯分类流程，包括模型训练、预测评估和可视化分析。文章还总结了朴素贝叶斯在文本分类、医疗诊断等场景的应用优势，以及其简单高效、可解释性强的特点，为机器学习入门者提供了从理论到实践的

2026-03-04 23:18:07 976 1

原创 MySQL 实战一本通：搞定工作中 90% 的数据库场景

本文系统梳理了MySQL从基础到进阶的核心知识点，涵盖SQL语法分类、数据操作、多表查询、性能优化等关键内容。重点介绍了DDL（数据库/表操作）、DML（增删改）、DQL（条件/分组/分页查询）等SQL语法，详细讲解了索引优化、事务ACID特性、数据约束等高级特性。同时包含视图使用、Python连接MySQL等实战技巧，为开发者提供全面的MySQL学习指南。文章强调实践应用，建议结合业务场景反复练习，以掌握MySQL的核心原理和优化方法。

2026-03-04 06:15:00 1025

原创 MySQL 实战通关指南：查询、表操作与数据管理

本文系统介绍了MySQL数据库的基础操作，重点围绕"学生-成绩-科目"场景展开。内容分为三个核心部分：1）表的创建与数据管理，包括CREATETABLE建表、INSERT/LOADDATA导入数据、mysqldump导出备份；2）表结构修改与删除，详解ALTERTABLE修改表结构和DROPTABLE删除表；3）数据查询技巧，从单表查询（WHERE/LIKE/ORDERBY/GROUPBY）到多表连接（INNERJOIN/OUTERJOIN）。通过实战案例讲解，帮助初学者掌握MySQL的

2026-03-03 21:33:26 828

原创告别鼠标！Linux 终端快捷键与历史命令终极指南，操作效率直接拉满

快捷键 / 命令核心功能高频使用场景Ctrl + C强制终止进程 / 清空当前输入命令卡死、输错内容重置Ctrl + D退出终端 / 登录 / 交互环境退出 SSH、Python/MySQL 交互模式光标跳至行首 / 行尾修改长命令前缀 / 后缀Ctrl + 左右箭头按单词跳转光标修改长命令中的单个参数Ctrl + L一键清屏终端内容杂乱，清理界面Ctrl + R增量搜索历史命令快速找回长命令、复杂配置命令history查看历史命令回溯过往操作、过滤目标命令!

2026-03-03 18:21:59 992 1

原创无监督学习实战：K-means 与 DBSCAN 聚类算法原理详解 + Python 代码全流程实现

无监督学习的核心特点是训练数据无人工标注的标签，算法需要自主挖掘数据的内在结构与分布规律。而聚类是无监督学习最核心的应用场景之一，其目标是：将相似的样本划分到同一个簇（Cluster）中，同时保证不同簇之间的样本差异最大化。K-means：划分式聚类的标杆，简单高效，适合常规球形分布数据集DBSCAN：密度式聚类的代表，支持任意形状簇，可自动识别噪声数据本文使用的是 20 款啤酒的特征数据集，共包含 5 个字段，数据内容如下：name：啤酒名称,calories：卡路里含量,sodium：钠含量,

2026-03-02 22:54:14 1314

原创【机器学习】支持向量机 SVM 从原理到实战（Python 全流程实现）

支持向量机（Support Vector Machine，SVM）是机器学习领域经典的有监督分类算法，自诞生以来凭借扎实的数学理论、优秀的小样本学习能力、强大的非线性拟合能力，在分类、回归等任务中得到了广泛应用。本文将从通俗的原理讲解入手，深入拆解 SVM 的核心逻辑，再基于 Python+sklearn 实现完整的 SVM 分类任务，包含可视化、模型训练、评估全流程，帮助读者从入门到实战彻底掌握 SVM。

2026-03-02 16:37:18 1011 1

原创随机森林核心参数详解｜从电信客户流失实战，对比决策树看集成学习的调参逻辑

很多刚接触机器学习的同学，都会遇到和我一样的问题：用电信客户流失数据集做预测，单棵决策树跑出来测试集准确率 79%，换了号称 “泛化能力拉满” 的随机森林，准确率只到 75%，流失用户的 F1 分数仅提升了 0.01，完全没体现出集成学习的优势。翻遍了教程，只会调（树的数量），却不知道随机森林的效果上限，从来不是由树的数量决定，而是由max_depth这四个核心参数决定。更关键的是：很多人直接把单棵决策树的调参逻辑，照搬到随机森林上，这是完全错误的。参考的决策树参数详解博文里，所有参数的核心目标是。

2026-02-28 19:32:36 1089 1

原创从原理到实战：一文吃透决策树三大核心算法（ID3/C4.5/CART）

在机器学习领域，决策树是当之无愧的「入门第一课」，更是工业界落地最广泛的算法之一。它不仅逻辑贴合人类的决策思维、模型解释性拉满，更是随机森林、XGBoost、LightGBM 等一众顶流集成模型的核心基石。本文将从底层原理出发，结合经典案例拆解三大决策树核心算法，再通过电信客户流失预测的 Python 实战，带你完成从理论理解到代码落地的全流程闭环。

2026-02-28 17:31:24 1478 1

原创逻辑回归（Logistic Regression）：从原理到实战的完整解读

逻辑回归是一种监督学习分类算法，核心逻辑是：先通过线性回归构建自变量与 “对数几率” 的线性关系，再通过 Sigmoid 函数将线性输出映射到 [0,1] 区间，把连续输出转化为离散的分类结果（二分类场景下为 0 或 1）。简单来说，逻辑回归不直接预测类别当概率≥0.5 时，判定为正类（如 “违约”“患病”）；当概率 <0.5 时，判定为负类（如 “不违约”“不患病”）。逻辑回归是二分类任务的基线模型，核心是 “线性回归 + Sigmoid 函数”，通过对数损失函数 + 梯度下降求解最优权重；

2026-02-07 09:02:54 1321 1

原创机器学习训练前必做！数据预处理全流程实战指南（附代码 + 避坑）

本文系统介绍了机器学习中数据预处理的核心流程和实用技巧。首先强调数据预处理的重要性，指出数据质量直接影响模型性能。然后详细讲解数据清洗（缺失值、异常值处理）、特征预处理（标准化、归一化、编码转换）、特征选择和数据集划分等关键步骤，并提供Python代码示例。文章还总结了常见避坑指南，如避免数据泄露、正确处理异常值等。最后强调数据预处理是迭代优化的过程，建议从经典数据集入手练习，认为优质的数据预处理往往比复杂模型更能提升性能。

2026-02-03 07:00:00 1169 1

原创线性回归——糖尿病数据分析案例

数据标准化：提升模型收敛速度与性能。评估指标：MSE和R²是回归任务的通用指标。可扩展性：可尝试多项式回归或正则化（如Lasso）改进模型。通过上述步骤，可快速构建一个基于线性回归的糖尿病进展预测模型。

2026-02-02 22:32:30 1212 1

原创机器学习——knn算法

K最近邻（K-Nearest Neighbors，KNN）是一种基于实例的监督学习算法，适用于分类和回归任务。其核心思想是通过测量不同样本之间的距离，找到待预测样本的K个最近邻居，根据邻居的类别或数值进行预测。工作原理距离计算：使用欧氏距离、曼哈顿距离或其他度量方式计算待预测样本与训练集中所有样本的距离。欧氏距离公式如下：2选择邻居：根据距离排序，选取距离最近的K个样本作为邻居。3投票或平均：分类任务中采用多数投票法确定类别；回归任务中取邻居目标值的平均值作为预测结果。关键参数与特点K值选择。

2026-01-30 07:15:00 1056

原创 pandas基础

pandas 是一个开源的 Python 数据分析库，提供高性能、易用的数据结构和数据分析工具。其核心是DataFrame和Series数据结构，适用于数据清洗、转换、统计分析和可视化等任务。

2026-01-24 08:00:00 1498 1

原创 numpy基础

NumPy（Numerical Python）是 Python 科学计算领域的核心基础库，核心提供了高性能的多维数组对象ndarray，以及一套专为数组设计的高效操作函数。相较于 Python 原生列表，NumPy 数组在数值计算、批量数据处理中能实现数量级的效率提升，是数据分析、机器学习、数值模拟等领域的必备工具。numpy的数据类型为ndarraynp.array()是基础转换方式，用于标准化初始化，生成有序序列，np.random生成随机数数组；arange按步长生成（不包含终止值），

2026-01-23 20:39:19 938

原创 GitHub学生认证

进入后用手机打开Authenticator用APP的扫描QR码扫上面二维码，扫描完成后把Authenticator上github的6为验证码填入进去，注意完成后会显示一系列密码，点击Download按钮保存好。这些是备份码，万一2FA的软件你不小心卸载了，就需要用这些备份码代替2FA的APP上的验证码，不然就登录不了Github了。正常情况这种就可以认证成功了。按图上步骤1点student，2填写你学校的英文全称，3填写你学校的个人邮箱 4，分享你的位置都完成后点击continue进入下一个页面。

2026-01-22 22:14:25 1578 7

原创 Linux 常用命令大全（高频实用版）

本文整理 Linux 日常操作中最常用的命令，按核心场景分类，包含功能说明、实操示例及注意事项，适合开发、运维、学生等各类用户快速查阅。

2026-01-19 22:04:53 903 1

opencv银行卡识别小案例

加深opencv的理解，一个简单的识别案例

2026-03-17

机器学习支持向量机SVC参数详解：C与gamma调优策略及核函数选择对分类性能影响分析

内容概要：本文档详细介绍了scikit-learn库中支持向量机分类器SVC的API参数及其作用。重点解析了核心参数如C（惩罚因子）、kernel（核函数，默认为rbf）、gamma（核函数系数）和degree（多项式核的维度）对模型性能的影响，并提供了各参数的默认值、取值建议及调优策略。同时说明了SVC的关键属性，如support_vectors_（支持向量）、n_support_（各类别支持向量数量）、coef_（权重参数w）和intercept_（偏置b），帮助用户深入理解模型训练后的内部结构。; 适合人群：具备机器学习基础知识，熟悉Python编程，正在进行分类任务建模的数据科学从业者或初、中级算法工程师；; 使用场景及目标：①用于分类问题中SVM模型的构建与调参优化；②理解SVC中关键参数对模型泛化能力和过拟合的影响机制；③通过交叉验证合理选择C和gamma等重要参数，提升模型效果；; 阅读建议：此文档侧重参数级解释，建议结合实际代码实践，通过可视化支持向量和网格搜索调参加深对SVC工作原理的理解。

2026-03-02

svm案例数据集（iris.csv）

2026-03-02

电信客户流失数据.xlsx

随机森林电信客户流失数据.xlsx实战数据，使用时请删除最后一行注释

2026-02-28

机器学习决策树【三种算法详解】.docx

内容概要：本文详细解析了决策树中的三种经典算法：ID3、C4.5和CART。首先介绍ID3算法，利用信息增益进行特征选择，通过计算熵和信息增益来判断不同属性对分类的影响，选取最优划分属性；接着讲解C4.5算法，在ID3基础上引入信息增益比，解决ID3对取值较多的属性偏好问题，提升模型泛化能力；最后介绍CART决策树，采用Gini指数作为特征选择标准，适用于分类与回归任务，具有更强的实用性与鲁棒性。文章结合具体数据示例，逐步演示各算法的计算过程，帮助理解决策树的构建机制。; 适合人群：具备基本机器学习和概率统计基础，正在学习或研究分类算法的学生、数据分析师及初级算法工程师；; 使用场景及目标：①理解ID3、C4.5、CART三种决策树算法的原理与差异；②掌握信息熵、信息增益、信息增益比、Gini指数等核心概念的计算方法；③为后续学习随机森林、GBDT等集成算法打下理论基础；阅读建议：建议结合文中计算实例手动推导每一步公式，加深对算法细节的理解，同时可使用Python等工具编程实现相关计算过程，强化实践能力。

2026-02-28

机器学习决策树分类器的参数API

内容概要：本文详细介绍了 scikit-learn 中 DecisionTreeClassifier 类的各个参数及其作用，涵盖决策树构建过程中涉及的关键配置，如划分标准（criterion）、切分策略（splitter）、树的深度控制（max_depth）、节点分裂的最小样本数（min_samples_split）、叶子节点的最小样本数（min_samples_leaf）、最大叶子节点数（max_leaf_nodes）以及类别权重（class_weight）等。通过对每个参数的功能、默认值及调参建议的说明，帮助用户理解如何优化决策树模型以防止过拟合或欠拟合，并提升模型泛化能力。; 适合人群：具备一定机器学习基础，熟悉决策树基本原理，正在使用或希望深入理解 sklearn 决策树模型调参的研发人员或数据科学从业者，尤其适合工作1-3年、参与建模工作的技术人员。; 使用场景及目标：①用于理解和掌握 DecisionTreeClassifier 各参数对模型性能的影响；②指导实际项目中如何根据数据规模和特征数量进行合理调参，优化模型效果；③辅助教学或自学决策树算法的实现细节与超参数调节策略。; 阅读建议：建议结合代码实践逐一验证各参数的作用，尤其是在不同数据集上调整 max_depth、min_samples_split、max_leaf_nodes 等关键参数，观察模型复杂度与泛化能力的变化，同时配合交叉验证确定最优参数组合。

2026-02-28

逻辑回归api参数介绍

内容概要：本文详细介绍了 scikit-learn 中 LogisticRegression 模型的各个参数及其作用，涵盖正则化方式（penalty）、优化算法（solver）、分类策略（multi_class）、样本权重处理（class_weight）等核心配置。重点解析了不同求解器（如 liblinear、sag、newton-cg 等）的适用场景与限制，例如 liblinear 适用于小数据集且仅支持 OvR 多分类，而 sag 和 saga 更适合大数据集但不支持 L1 正则化。同时说明了正则化强度 C、收敛条件 tol、最大迭代次数 max_iter 等参数对模型训练的影响，并对比了 OvR 与 MvM 多分类策略的优劣。; 适合人群：具备机器学习基础知识，熟悉 Python 与 sklearn 框架，有一定建模经验的数据科学从业者或算法工程师（工作1-3年）；正在处理分类任务特别是样本不平衡或多分类问题的研究人员。; 使用场景及目标：① 在实际项目中合理选择逻辑回归的求解器与正则化方式以提升模型性能；② 解决样本不均衡问题，通过 class_weight 调整类别权重；③ 针对大数据或高维特征场景优化训练效率与分类精度；④ 理解 multi_class 与 solver 的兼容关系，正确配置多元分类模型。; 阅读建议：建议结合实际数据集动手实验不同参数组合的效果，重点关注 solver 与 penalty、multi_class 的搭配规则，调试过程中观察收敛速度与分类指标变化，深入理解参数背后的优化机制与数学原理。

2026-02-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人