自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 K-means聚类:3分钟带你掌握数据分组的核心秘籍!

聚类算法是一类无监督学习方法,旨在将数据划分为若干组(簇),使得同一簇内的样本相似度高,而不同簇间的样本差异大,根据样本之间的相似性,将样本划分到不同的类别中。

2025-06-04 11:02:19 608

原创 集成学习概述

集成学习: (Ensemble Learning)是一种机器学习范式,它通过构建并结合多个模型来完成学习任务,获得更好的泛化性能。其中,参与组合的模型又叫弱学习器或者基学习器。

2025-06-02 21:00:31 1164

原创 决策树-机器学习

决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果。它主要用于分类和回归任务,通过递归地分裂数据集构建树状结构。2.决策树构建过程(三要素)① 特征选择选择较强分类能力的特征② 决策树的生成根据选择的特征生成决策树③ 决策树的剪枝决策树也容易过拟合,采用剪枝的方法缓解过拟合3.优缺点及应用可解释性强能处理非线性关系对缺失值有一定鲁棒性容易过拟合对数据变化敏感可能产生不稳定树结构。

2025-06-01 23:53:41 859 1

原创 逻辑回归概述

(Logistic Regression)通过将线性回归的输出映射到(0,1)区间,使用Sigmoid函数将连续值转换为概率值,设置一个阈值(如下图的0.5),然后根据概率值进行二分类预测。ROC曲线以模型的真正率TPR为纵轴,假正率FPR为横轴,它将模型在不同阈值下的表现以曲线的形式展现出来。, (x_n, y_n) ],n个样本都预测正确的概率就是伯努利分布的。逻辑回归的假想函数:h(w) = sigmoid(w^Tx + b ),把线性回归的输出,作为逻辑回归的输入。样本不平衡情况下模型训练;

2025-05-31 21:29:25 691 1

原创 线性回归—机器算法相关

利用回归方程(函数) 对 一个或多个自变量(特征值)和因变量(目标值)之间 关系进行建模的一种分析方式2.公式:一元线性回归:y = wx+b多元线性回归: ℎ_(w) = w_1x_1+ w_2x_2 + w_3x_3 + … + b = w^Tx+b。

2025-05-27 21:30:03 569 1

原创 优化鸢尾花案例

【代码】优化鸢尾花案例。

2025-05-25 22:01:51 67

原创 KNN算法

其核心思想是“物以类聚”——通过计算待分类样本与训练集中样本的距离,找到最近的K个邻居,并根据这些邻居的类别进行投票决定待分类样本的类别。Ⅱ.网格搜索:网格搜索是模型调参的有力工具,只需要将若干参数传递给网格搜索对象,它自动帮我们完成不同超参数的组合、模型训练、模型评估,最终返回一组最优的超参数。为什么要预处理:特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些模型(算法)无法学习到其它的特征。比如:根据你的“邻居”来推断出你的类别。

2025-05-25 21:54:48 1116 1

原创 机器学习概述

1.数据:海量、高质量的数据是训练AI模型的基础,涵盖结构化(如表格)和非结构化数据(如文本、图像)。AI的子领域,通过算法让计算机从数据中自动学习规律,无需显式编程,模型性能与数据质量和规模直接相关。Ⅲ:奥卡姆剃刀原则:给定两个相同泛化误差的模型,较简单的模型比较复杂的模型更可取。从数据中自动学习规律,构建预测模型,通过参数(如权重、概率分布)泛化到新数据。2.算法:从数据中提取规律的方法,包括传统机器学习(如SVM)和深度学习。Ⅱ:泛化: 模型在新数据集(非训练数据)上的表现好坏的能力。

2025-05-23 21:33:11 846

原创 数据分析整体思路

1.导包 2.加载数据 3.了解数据 4.清洗填充数据 5.处理分析数据 6.可视化展示。

2025-05-21 11:15:03 942

原创 Pandas数据结构简述

DataFrame是一个表格型的结构化数据结构,它含有一组或多组有序的列(Series),每列可以是不同的值类型(数值、字符串、布尔值等)。exclude:不包含指定类型列, print(df.describe(exclude=['int', 'float']))格式:df对象.to_数据格式(路径) 例如 : df.to_csv('data/abc.csv')⑥ 添加列:通过 df[列名] = 值 的方式, 可以给df对象新增一列, 默认: 在df对象的最后添加一列。

2025-05-17 21:17:31 1188

原创 Numpy入门

np.cumsum(), np.cumprod(): 返回一个一维数组,每个元素都是之前所有元素的 累加和 和 累乘积,参数是 number 或 array。np.argmax(), np.argmin(): 最大值的下标索引值,最小值的下标索引值,参数是 number 或 array。.np.max(), np.min(): 所有元素的最大值,所有元素的最小值,参数是 number 或 array。①rand() 的功能是生成一个指定形状的随机浮点数数组,范围默认是0-1之间,(x,y)可以修改形状。

2025-05-16 20:52:20 955

原创 MySQL数据库概述

数据库的作用就是存储和管理数据的,例如可以存储大量的商品信息、用户信息、用户浏览信息等,当然也可以对这些数据进行管理处理,例如新增数据、修改数据、删除数据、查看数据等;:概念和功能:又叫聚合函数,统计函数...sum()求和,count()计数,avg()求平均,max()求最大值,min()求最小值。select 分组字段名, 聚合函数(字段名) from 表名 group by 分组字段名,分组字段名...;:insert into 表名(字段名) values (字段值) , (字段值) ...;

2025-05-14 17:31:37 1101

原创 排序算法简述

定义:排序算法,就是使记录按照要求排列的方法这里举例两种方法。

2025-05-10 21:29:43 377

原创 数据结构与算法

单链表的操作:is_empty() 链表是否为空length() 链表长度travel() 遍历整个链表add(item) 链表头部添加元素append(item) 链表尾部添加元素insert(pos, item) 指定位置添加元素remove(item) 删除节点search(item) 查找节点是否存在。

2025-05-09 20:48:10 345

原创 正则表达式

2025-05-08 21:22:43 163

原创 进程和线程

进程与线程的介绍

2025-05-07 16:36:15 102

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除