![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 87
TingXiao-Ul
O(∩_∩)O哈哈~
展开
-
机器学习中的假设检验
机器学习中的假设检验:正态性检验、方差分析、卡方分析、回归方程回归系数检验原创 2023-11-08 20:53:28 · 816 阅读 · 2 评论 -
机器学习完整项目实战附代码(二):探索型数据分析+特征工程+建模+报告
这是一个:给定一组包含目标(在本例中为价格:MEDV)的数据,我们希望训练一个可以学习将特征(也称为解释变量)映射到目标的模型。在训练中,我们希望模型能够学习特征和分数之间的关系,因此我们给出了特征和答案。然后,为了测试模型的学习效果,我们在一个从未见过答案的测试集上进行评估。原创 2022-05-26 15:55:58 · 7126 阅读 · 7 评论 -
机器学习完整项目实战附代码(一):探索型数据分析+特征工程+建模+报告
1. 项目背景 泰坦尼克号的沉没是历史上最臭名昭著的沉船之一。1912年4月15日,在她的处女航中,被广泛认为“不沉”的“泰坦尼克号”在与冰山相撞后沉没。不幸的是,船上的每个人都没有足够的救生艇,导致2224名乘客和船员中有1502人死亡。虽然生存中有一些运气因素,但似乎有些群体比其他群体更有可能生存下来。在这里,建立一个预测模型来回答这个问题:“什么样的人更有可能生存?”使用乘客数据(即姓名,年龄,性别,社会经济阶层等)。1.1 项目目标: 这是一个受监督的分类机器学习任务:给定一组包含目标(在原创 2022-05-17 11:52:26 · 26404 阅读 · 17 评论 -
为什么可以用概率分布密度函数来表示概率?
为什么经常会看到随机变量的概率分布多用概率密度函数来描述而不直接用概率分布函数?举个例子:现有如下数据集X,m个样本n个特征,y为标签向量集合,假设各维度遵循高斯分布原创 2022-04-21 13:14:30 · 1818 阅读 · 1 评论 -
机器学习中的高斯分布
高斯分布与聚类之GMM;高斯分布与数据预处理;高斯分布与马氏距离;原创 2022-04-19 22:09:38 · 8388 阅读 · 2 评论 -
机器学习之为什么要数据预处理?如何预处理数据?
为什么要标准化处理?什么情况下需要对数据标准化处理?哪些模型对标准化处理比较敏感?原创 2022-04-17 17:56:02 · 21595 阅读 · 0 评论 -
支持向量机SVM原理解析
支持向量机(SVM)可以找到这样一个超平面,使得所有相同类别的样本位于超平面一侧。如图示,可能存在无穷多个超平面。虽然他们的训练误差都等于0,但不能保证这些超平面在测...原创 2022-04-13 14:57:01 · 7025 阅读 · 0 评论 -
逻辑回归算法原理
逻辑回归本质上是线性回归套用激活函数sigmoid来输出概率值用于分类原创 2022-04-13 00:53:20 · 7452 阅读 · 1 评论 -
贝塞尔曲线-曲线拟合
如下图所示:在二维平面内选三个不同的点(起点A,中间点B,终点C)并依次用线段连接 在线段AB和BC上按比例分割找到新的起点和中间点:D、E两点,使得AD/AB=BE/BC 连接DE,并在DE上找到新的起点F点,EC上找到新的中间点G点,使其满足DF/DE=EG/EC 重复步骤1、2、3,找出符合上述条件的所有点,直到新的起点和终点C重合或者中间点和终点C重合时结束递归代码如下:class Bezier: def __init__(self,points,baseRatio原创 2022-04-10 17:28:06 · 4695 阅读 · 0 评论 -
常见迭代优化算法解析及python实现
当数据集较小时,可以通过诸如求导方式一步就能求出参数w,但当数据集很大时,计算速度就会变得很慢,有时无法直接通过求导计算,这个时候可以通过迭代优化算法逐步求解。常见优化算法如下梯度下降:代价函数:总误差和最小。梯度,迭代同步更新 坐标下降:代价函数:总误差和最小。偏导,迭代逐项更新 牛顿迭代:二阶导 逐步回归:代价函数:总误差和最小。迭代逐项更新 最小角回归 :目标函数:寻找与残差最大相关的特征列。迭代逐项更新 拉格朗日乘法:解决含约束的优化问题1、梯度下降............原创 2022-04-06 19:06:06 · 11678 阅读 · 0 评论 -
八种常见回归算法解析及代码
目录一、线性回归1、最小二乘法-导数/偏导为0求参数最小二乘法求解参数优缺点2、迭代求解参数-梯度下降、坐标轴下降、最小角回归2.1使用梯度下降-对回归系数中w的每个元素分别求偏导并乘以学习率,迭代更新w2.1.1批量梯度下降:每次迭代依据全体样本的误差结果更新回归系数2.1.2随机梯度下降:每次迭代依据某个样本的误差结果更新回归系数2.1.3小批量梯度下降:每次迭代依据部分样本的误差结果更新回归系数2.2.1坐标轴下降法和梯度下降法的区别2.3、使用最...原创 2022-03-31 21:34:50 · 23373 阅读 · 4 评论 -
六种常见聚类算法
Kmeans聚类原则:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。逐次计算各簇中心的值为新的中心值,迭代更新,直至得到最好的聚类结果算法流程:适当选择k个类的初始中心; 在第n次迭代中,对任意一个样本,求其到k个中心的距离,将该样本归到距离最短的中心所在的类/簇; 利用均值等方法更新该类的中心值; 对于所有的k个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束;否则,则继续迭代。 优点:速度快,简单缺点:适合聚类球状类簇,不能发现一些混合度原创 2022-03-31 03:42:59 · 74856 阅读 · 12 评论 -
SVD应用--电影推荐系统+图像压缩
推荐系统如电影推荐系统的作用其实就是先对用户未评分的电影做预测评分,使数据完整,然后降序排序评分,为用户推荐评分前几名的物品原创 2022-03-31 02:19:16 · 2414 阅读 · 0 评论 -
相似性度量方法:相关系数和相似系数
皮尔逊相关系数-衡量相似度大学课本概率轮与数理统计定义:若(X,Y)是一个二维随机变量,则称E{[X-E(X)][Y-E(Y)]}为随机变量X与Y的协方差,记为Cov(X,Y)。即Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}性质:Cov(aX,bY)=abCov(X,Y),(a,b是常数)相关系数协方差可以在一定程度上反映X与Y相互间的联系,但它还受X与Y本身数值大小的影响,譬如说,令X与Y各自增大k倍,即X1=kX,Y1=kY,这时X1与Y1间的相互联系和X与Y间的相互联原创 2022-03-31 01:00:18 · 9267 阅读 · 0 评论 -
看图就懂:线性代数之特征值分解与奇异值分解
目录基向量:基向量表达:变换相似矩阵行列式特征向量特征向量作为基向量特征基用途矩阵对角化特征值分解矩阵奇异值分解矩阵(SVD)奇异值分解性质基向量:基向量是过原点的单位向量,选择一对/组基向量(线性无关)组成参考坐标系,等距平行分布。如下所示 U[i,j] .........原创 2022-03-30 21:21:53 · 1653 阅读 · 0 评论 -
关联分析:Apriori与FP-growth算法-代码
大型超市有海量的交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务。但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入。其中最经典的案例就是关于尿不湿和啤酒的故事。怎样在繁杂的数据之间寻找到数据之间的隐藏关系?当然可以使用穷举法,但代价高昂,所以需要使用更加智能的方法在合理时间内找到答案。Apriori就是其中的一种关联分析方法。基本概念关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。这......原创 2022-03-30 18:22:25 · 2016 阅读 · 0 评论 -
看图就懂:为什么L1正则化比L2正则化更容易得到稀疏解?为什么L2正则化可以用于防止过拟合?
相信大部分人都见到过,下面的这两张对比图,用来解释为什么L1正则化比L2正则化更容易得到稀疏解,然而很多人会纠结于"怎么证明相切是在角点上?",呃,不必就纠结于此,请注意结论中的"容易"二字,配图只是为了说明"容易"而已。假设x仅有两个属性,即w只有两个分量w1,w2,稀疏解->w1=0或w2=0,即w的等值线与平方误差等值线的切点位于坐标轴。事实上L1与L2均可以实现与平方误差等值线的切点位于坐标轴上,只不过L2需平方误差等值线的"中心点"位于坐标...原创 2022-01-16 20:51:45 · 2949 阅读 · 0 评论 -
凸包+凹包+凸边凹化算法
凸包算法+凹包算法+凸边凹化算法原创 2021-12-30 21:31:36 · 6518 阅读 · 2 评论 -
支持向量机SVM可视化(不调用sklearn库)
SVM的可视化(不调用sklearn库)原创 2021-12-24 15:43:35 · 4392 阅读 · 4 评论