KING BOB!!!-CSDN博客

原创 pandas ：从入门到进阶的系统实践笔记

本文系统介绍了如何使用 Python 的 pandas 库进行结构化数据处理，涵盖了从数据读取、检查、清洗到分组聚合等常见操作。首先，通过示例展示了如何创建和读写 DataFrame，并介绍了数据结构的基本操作。接着，详细讲解了数据载入后的检查与类型管理，确保数据正确性。随后，介绍了行列选取与条件过滤的多种方法，并提供了缺失值处理、去重和映射更新的实用技巧。最后，通过分组、聚合与交叉表的操作，展示了如何高效地进行数据统计与分析。文章通过代码示例和图表，帮助读者快速掌握 pandas 的核心功能，适用于数据分

2025-05-22 12:58:30 957

原创聚集索引 vs. 非聚集索引

聚集索引和非聚集索引是数据库中的两种重要索引类型，主要区别在于数据的存储方式和查询效率。聚集索引（如InnoDB的主键索引）将数据行按主键顺序物理存储，叶子节点包含完整行数据，查询时只需一次B+树遍历即可获取整行数据，效率较高。非聚集索引（如二级索引）的叶子节点仅存储索引列和主键值，查询时需先通过二级索引找到主键，再通过主键回表查询完整数据，效率较低。InnoDB支持聚集索引，而MyISAM仅支持非聚集索引。聚集索引适用于主键查找和顺序读取，非聚集索引适用于特定列的过滤和排序，尤其是在覆盖索引的情况下可以避

2025-05-17 09:13:02 818

原创 MYSQL 索引与数据结构笔记

MySQL 索引与数据结构笔记主要探讨了 B-Tree 和 B+ Tree 的差异及其在数据库中的应用。B-Tree 每个节点存储键和数据，适合单点查询，而 B+ Tree 非叶子节点仅存储键，数据集中在叶子节点，并通过链表连接，适合范围查询和减少磁盘 I/O。B+ Tree 的高扇出和低树高使其在数据库索引中表现更优，尤其适合大量数据和高并发读写场景。MySQL 的 InnoDB 存储引擎默认使用 B+ Tree 作为索引结构，因其能有效减少磁盘 I/O、优化范围查询并提高页面利用率。文章还通过示例展示了

2025-05-10 14:02:34 698

原创 MYSQL的多表连接查询以及视图

本文介绍了MySQL中的多表连接查询和视图操作，重点讲解了如何使用DDL语句修改表结构，包括将HIREDATE列的数据类型更改为DATE，以及如何设置EMPNO和DEPTNO为主键并添加外键约束。此外，文章还详细解释了如何使用聚合函数AVG()计算平均工资和提成，并探讨了NULL值在聚合计算中的处理方式，特别是通过COALESCE函数来处理NULL值，确保所有员工的数据都被纳入计算。这些操作有助于确保数据的完整性和一致性，并提高查询的灵活性。

2025-05-09 10:10:41 800

原创 MYSQL的DDL语言和单表查询

MySQL 是基于 SQL 标准构建的开源关系型数据库管理系统，它以轻量、性能优良和跨平台著称，广泛应用于 Web 后端、大数据处理及企业信息化等场景。MySQL 对 SQL 语法进行了兼容与扩展，提供事务支持、索引优化、视图、触发器和存储过程等功能，同时拥有主从复制、分区、集群和高可用架构，为不同规模的应用提供弹性的数据解决方案。借助严谨的 SQL 语言规范和 MySQL 丰富的实现机制，开发者能够以一致的接口完成复杂的数据模型设计与高并发读写操作，实现从原型到生产环境的顺畅迁移。

2025-05-06 16:53:49 878

原创 Markdown编辑器——Typora（Picgo+Github图床）

支持将本地图片快速上传到多种图床（如GitHub、七牛云、阿里云OSS等），并生成相应的URL，便于用户在博客、论坛等地方分享和引用图片。PicGo 提供简洁的用户界面和灵活的插件扩展系统，适合需要频繁上传图片的用户使用。然后点击右上角个人头像，进入Settings–>Developer settings–>Personal access tokens–>Tokens(classic)，新生成一个token，并复制。设定仓库名：GitHub的用户名/新建的仓库名称。设定Token：刚刚创建的Token。

2025-01-06 11:36:44 968

原创免费好用的Markdown编辑器——MartText（Picgo+Giuhub）

拥有与Typora一样简洁的外观，近乎一致的功能，并且最重要的是，MarkText是开源免费的，可以算是目前Typora的最佳平替。

2024-08-30 13:55:02 970

原创集成学习之Boosting方法系列_CatBoost

集成学习是一种机器学习方法，通过将多个弱学习器（weak learners）组合成一个更强大的集成模型来提高预测性能和泛化能力。Boosting 是一种迭代的集成方法，它通过逐步调整训练数据的权重和/或模型的权重来训练多个弱学习器，以便每个弱学习器更关注先前被错误分类的样本。AdaBoost、Gradient Boosting 和 XGBoost 都是 Boosting 的变种。本文将介绍Boosting方法的其中一种：CatBoost。

2024-01-29 09:51:32 1841

原创集成学习之Boosting方法系列_XGboost

集成学习是一种机器学习方法，通过将多个弱学习器（weak learners）组合成一个更强大的集成模型来提高预测性能和泛化能力。Boosting 是一种迭代的集成方法，它通过逐步调整训练数据的权重和/或模型的权重来训练多个弱学习器，以便每个弱学习器更关注先前被错误分类的样本。AdaBoost、Gradient Boosting 和 XGBoost 都是 Boosting 的变种。本文将介绍Boosting方法的其中一种：XGBoost。

2024-01-28 11:21:18 1483

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_建模分析

Spaceship Titanic比赛，类似Titanic比赛，只是增加了更多的属性以及更大的数据量，仍是一个二分类问题。今天要分析的是一篇大神的解决方案，看完后觉得干货满满，由衷地敬佩他们对数据分析的细致程度，对比之下只觉得之前自己的分析仅仅是表面功夫，单纯靠着模型的强大能力去完成任务。看来以后还是得不断地向各位前辈大佬学习，完善自己的解决方案！！！项目代码：Kaggle竞赛系列_SpaceshipTitanic比赛。

2024-01-28 10:40:47 1200 1

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据处理

Spaceship Titanic比赛，类似Titanic比赛，只是增加了更多的属性以及更大的数据量，仍是一个二分类问题。今天要分析的是一篇大神的解决方案，看完后觉得干货满满，由衷地敬佩他们对数据分析的细致程度，对比之下只觉得之前自己的分析仅仅是表面功夫，单纯靠着模型的强大能力去完成任务。看来以后还是得不断地向各位前辈大佬学习，完善自己的解决方案！！！项目代码：Kaggle竞赛系列_SpaceshipTitanic比赛。

2024-01-27 18:18:09 1344 1

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据分析

Spaceship Titanic比赛，类似Titanic比赛，只是增加了更多的属性以及更大的数据量，仍是一个二分类问题。今天要分析的是一篇大神的解决方案，看完后觉得干货满满，由衷地敬佩他们对数据分析的细致程度，对比之下只觉得之前自己的分析仅仅是表面功夫，单纯靠着模型的强大能力去完成任务。看来以后还是得不断地向各位前辈大佬学习，完善自己的解决方案！！！项目代码：Kaggle竞赛系列_SpaceshipTitanic比赛。

2024-01-27 16:08:48 2092 2

原创 Kaggle竞赛系列_SpaceshipTitanic比赛

Spaceship Titanic比赛，类似Titanic比赛，只是增加了更多的属性以及更大的数据量，仍是一个二分类问题。我使用的是基于LightGBM，结合交叉验证进行预测的单模方案，最终得分为0.79，有很多地方还可以改进，如果您愿意分享您宝贵的经验和知识，我将不胜感激。该比赛涉及数学建模、机器学习、随机森林、分类算法等多个领域，完整过一遍流程所获甚多。

2024-01-25 13:15:03 1804

原创 kaggle竞赛系列_特征筛选

Kaggle竞赛补充内容：特征筛选特征筛选（Feature Selection）是机器学习和数据分析中的一个重要步骤，其主要目的是从原始特征集合中选择最相关、最有价值的特征，以用于构建模型、提高模型性能或减少计算成本。特征选择的核心思想是从所有可用特征中筛选出对于解决问题最有用的特征，从而提高模型的泛化能力和效率。特征筛选是指从原始的特征集合中挑选出一个子集，以在构建机器学习模型时用于训练模型、提高模型性能或减少计算成本。

2024-01-24 12:44:05 1340

原创集成学习之Boosting方法系列_LightGBM

集成学习是一种机器学习方法，通过将多个弱学习器（weak learners）组合成一个更强大的集成模型来提高预测性能和泛化能力。Boosting 是一种迭代的集成方法，它通过逐步调整训练数据的权重和/或模型的权重来训练多个弱学习器，以便每个弱学习器更关注先前被错误分类的样本。AdaBoost、Gradient Boosting 和 XGBoost 都是 Boosting 的变种。本文将介绍Boosting方法的其中一种：LightGBM。

2024-01-23 21:14:44 1387 1

原创数学建模系列_随机森林

数学建模备赛内容62 随机森林模型基本原理_哔哩哔哩_bilibili什么是随机森林随机森林是一种集成学习方法，通过组合多个决策树来解决分类和回归问题。每棵树都是根据随机选择的训练数据和特征构建的，最终的预测结果是基于多个树的投票（分类问题）或平均（回归问题）得出的。随机森林具有良好的泛化能力、鲁棒性和高效性，适用于各种机器学习任务。本质属于集成学习方法、由多棵决策树组成，每棵决策树都是一个分类器，将多个分类器的结果进行投票。（1）具有极高的准确率（2）能够使用在大数据上（3）不需要降维。

2024-01-23 12:38:41 3838 1

原创数学建模系列_决策树

数学建模备赛内容57 什么是决策树_哔哩哔哩_bilibili什么是决策树：决策树（Decision Tree）是一种常用于机器学习和数据挖掘领域的监督学习算法，它用于建立一个类似于树状结构的模型，用于进行分类和回归任务。决策树模型基于一系列的决策规则，每个规则都将数据集中的样本分割成不同的子集，直到最终达到某个决策或目标。在构建决策树模型时，算法会根据训练数据集中的特征和目标值来自动选择最优的分割点和规则，以最大程度地提高模型的预测性能。

2024-01-20 09:40:14 1766

原创 Kaggle竞赛系列_Titanic比赛

本菜鸡第一次尝试此类比赛，踩了很多坑，也有很多地方还可以改进，最终得分也只有0.76，如果您愿意分享您宝贵的经验和知识，我将不胜感激。“Titanic - Machine Learning from Disaster” 是 Kaggle 平台上的一个知名比赛，参与者需使用机器学习模型预测哪些乘客在泰坦尼克号沉船事故中幸存。比赛提供了包含各种特征的乘客数据，如性别、年龄、舱位等。参赛作品将根据预测幸存结果的准确性进行评估。

2024-01-19 16:37:56 791 1

原创 UCI数据集准备方式

下载完成后会得到一个包含4个文件的压缩包，我们主要对iris.data进行处理。整理好的Iris数据集。

2023-11-21 08:49:20 317 1

原创最优化方法线性方程组求解

已知向量，矩阵，线性方程组，其中：编写代码，通过高斯消元法求解,并验证解的准确性。

2023-10-10 12:23:39 943 1

原创模式识别——统计决策方法——正态分布时的统计决策

px12πd2∣∑∣12exp−12x−μT∑−1x−μ其中μEx∑Ex−μx−μT其中px2π2d∣∑∣211exp−21x−μT∑−1x−μ)}其中μEx∑E{(x−μx−μT。

2023-10-08 17:58:48 490 1

原创模式识别——统计决策方法——Neyman-Pearson决策规则

如果与最小错误率决策规则相对比，可以看出Neyman-Pearson决策规则也是以似然比为基础的，但两者所使用的阈值不同。作决策，则很可能使实际的决策效果有较大的错误率或较大风险。能否在这种情况下，找到一种合适的分类器设计，使其最大可能的风险为最小。换句话说，如果先验概率值在教大范围内变化，就可能产生的最大风险而是最小的。之前讨论的最小错误率或最小风险决策方法都是在先验概率已知的条件下进行的，先验概率的数值对决策有很密切的关系。，而Neyman-Pearson是由方程组的解获得的一个常数入。

2023-10-06 20:47:47 900 1

原创模式识别——统计决策方法——最小风险贝叶斯决策

现在再回到猜硬币的那个简单的例子上来。前面给出的是在最小错误率的原则下得到的决策规则，但是，根据具体的场合不同，我们应关心的有可能并不仅仅是错误率，而是错误所带来的损失：毕竞，把一角误认为是五角与把五角误认为是一角所带来的损失是不同的。同样，在癌细胞识别的例子中，我们不但应该关心所作的决策是否错误，更应该关心决策错误所带来的损失惑风险。比如，如果把正常细胞误判为癌细胞，会给病人带来精神上的负担和不必要的进一步检查，这是一种损失；

2023-09-30 12:21:46 1635

原创模式识别——统计决策方法——最小错误率贝叶斯决策

从图2-2可以看到，这种决策实际的分界线是图中的虚线位置，如果样本x落在分界线左侧则归为第一类，落在右侧则归为第二类。从最小错误率的要求出发，利用概率论中的贝叶斯公式，就能得出使错误率最小的分类决策，称之为最小错误率贝叶斯决策。把硬币的重量仍记为x，与上面所述的决策过程类似，现在应该考查在已知这枚硬币重量为x情况下硬币属于各类的概率，对两类硬币分别记作。则是x的分布概率，将这两个式子相乘积分得到就是所有样本的平均错误率。是对单个样本x的决策总体错误率，包括将正类x决策为负类，将负类x决策为正类，而。

2023-09-30 12:21:11 1973

原创脑与认知科学-实验一-认知科学实验设计

观察下面的三组有色文字，请说出每个词语显示出来的颜色第一组：如果文字的意义与显示的字体颜色相同，例如绿色颜色的“绿色”二字，那么说出显示文字的颜色的名称比较容易且迅速，反应时RT会很短。第二组：如果文字是以红色这一颜色显示，而文字是“绿色”二字，那么反应时RT会变长，且辨识很容易出错。第三组：如果文字的意义与显示的字体颜色没有关系，例如老鼠等词语，那么说出显示文字的颜色的名称比第二组容易且迅速，RT比第二组短。斯特鲁普效应展示了人们对事物的认知过程是一个自动化的过程。

2023-09-27 19:44:45 932 2

原创 novelai本地部署指南

自动安装过程中可能会出现网络问题，一般来说多重新运行几遍webui-user.bat就可以解决问题，或者翻墙再试几次。如果手动添加环境，则在“此电脑”右键，选择”属性“，进入系统信息，选择“高级系统设置”，进入“环境变量”新建环境变量，将python的文件夹和scripts的地址输入进去，并将这两个环境变上移到顶部。进入控制台，输入python，若弹出以下界面，则安装成功。在安装时选择add to path，将其添加到环境变量。进入控制台，输入git，若弹出以下界面，则安装成功。详细步骤可以参考该文章。

2023-02-25 18:04:21 1020 2

m0_62895602的博客

原创 pandas ：从入门到进阶的系统实践笔记

原创聚集索引 vs. 非聚集索引

原创 MYSQL 索引与数据结构笔记

原创 MYSQL的多表连接查询以及视图

原创 MYSQL的DDL语言和单表查询

原创 Markdown编辑器——Typora（Picgo+Github图床）

原创免费好用的Markdown编辑器——MartText（Picgo+Giuhub）

原创集成学习之Boosting方法系列_CatBoost

原创集成学习之Boosting方法系列_XGboost

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_建模分析

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据处理

原创 Kaggle竞赛系列_SpaceshipTitanic金牌方案分析_数据分析

原创 Kaggle竞赛系列_SpaceshipTitanic比赛

原创 kaggle竞赛系列_特征筛选

原创集成学习之Boosting方法系列_LightGBM

原创数学建模系列_随机森林

原创数学建模系列_决策树

原创 Kaggle竞赛系列_Titanic比赛

原创 UCI数据集准备方式

原创最优化方法线性方程组求解

原创模式识别——统计决策方法——正态分布时的统计决策

原创模式识别——统计决策方法——Neyman-Pearson决策规则

原创模式识别——统计决策方法——最小风险贝叶斯决策

原创模式识别——统计决策方法——最小错误率贝叶斯决策

原创脑与认知科学-实验一-认知科学实验设计

原创 novelai本地部署指南

Python爬虫第二课：Request.md

空空如也