- 博客(11)
- 收藏
- 关注
原创 Python实现距离度量
标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路:既然数据各维分量的分布不一样,好吧!相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。应用:信息编码(为了增强容错性,应使得编码间的最小汉明距离尽可能大)。(1)标准欧氏距离的定义。
2023-09-01 21:24:59 324 1
原创 数据分析:相关分析
相关分析主要通过计算变量之间的相关系数来实现。1.2 散点图矩阵初判多变量间关系2、一些检验2.1 正态性检验态性检验 → pvalue >0.052.2 显著性检验假设:检验量:3、皮尔森相关系数两个变量都是连续正态连续变量,且两者之间呈线性关系该系数结果是一个-1到1之间的值,绝对值越大表明相关性越强,正数为正相关,负数为相关,相关系数为0,表明它们之间不存在线性相关关系。、Spearman相关系数适用:等级顺序或者等距等比数据,数据总体分布不是正态分布,数据容量可能大于
2023-09-01 21:24:21 137 1
原创 特征处理2:特征降维
理论参考:通过某种线性投影,将高维的数据映射到低维的空间中,并期望方差最大,从而达到使用较小的数据维度保留较多的原始数据点特征的效果。(PCA的输入数据是不带标签的,所以PCA是一种unsupervised learning)
2023-09-01 21:22:36 131 1
原创 特征处理1:特征工程(特征选择)
首先假设两个变量是独立的(此为原假设),然后观察实际值和理论值之间的偏差程度,若偏差足够小,则认为偏差是很自然的样本误差,接受原假设。鉴于RFE仅是后向迭代的方法,容易陷入局部最优,而且不支持Lightgbm等模型自动处理缺失值/类别型特征,便基于启发式双向搜索及模拟退火算法思想,产生了一个特征选择的方法。统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;如果一个特征不发散,就是说这个特征大家都有或者非常相似,说明这个特征不需要。
2023-09-01 21:21:37 184 1
原创 聚类2:optics与GMM聚类
在实际应用中,GMM聚类算法可以用于许多领域。例如,使用GMM聚类算法对人脸图像进行聚类,以便更加准确地识别不同的人脸。使用GMM聚类算法对音频信号进行聚类,以便更加准确地识别语音。高斯混合聚类(GMM)是一种聚类算法,可以用来对数据进行分类。GMM算法假设数据点是由一个或多个高斯分布生成的,并通过最大似然估计的方法来估计每个簇的高斯分布的参数。原文链接:https://blog.csdn.net/babyai996/article/details/130027268。
2023-08-18 23:50:32 225 1
原创 分类与回归算法4:逻辑回归与多重逻辑回归
逻辑回归是线性分类器(线性模型)—— 主要用于二分类问题注意:逻辑回归虽然名字中有回归二字,但是它不是回归算法,而是分类算法。# 设置随机种子# Sigmoid激活函数# 定义逻辑回归算法self.learning_rate = learning_rate # 学习率self.iterations = iterations # 迭代次数# 初始化参数# 梯度下降# 计算sigmoid函数的预测值, y_hat = w * x + b# 计算损失函数# 计算梯度# 更新参数。
2023-08-18 23:49:15 183 1
原创 分类与回归算法3:KNN
KNN最邻近分类算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则(majority-voting),将未知样本与K个最邻近样本中所属类别占比较多的归为一类。由于KNN最邻近分类算法在分类决策时只依据最邻近的一个或者几个样本的类别来决定待分类样本所属的类别,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
2023-08-11 17:00:43 482 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人