.Vaidurya.-CSDN博客

原创 FP Tree算法原理总结

FP Tree一个挖掘频繁项集的算法，但它和Apriori算法有一定的区别。Apriori要多次扫描数据集，而FP Tree只需要扫描两次数据集，提高了算法运行的效率。

2024-08-09 17:39:12 691

原创典型关联分析原理

CCA是用来挖掘数据关联关系的算法之一，它的使用方法是将数据降维多维数据转化成为一维数据然后再利用相关系数进行相关性分析，相关性系数越靠近1，则它们的相关性越大，反之则越小。

2024-08-08 17:18:59 312

原创奇异值分解原理在降维中的应用

奇异值分解（Singular Value Decomposition，简称SVD）是一种强大的矩阵分解技术，在机器学习和数据科学领域广泛应用，如降维、推荐系统、自然语言处理等。SVD能够将任意形状的矩阵分解为三个特定矩阵的乘积，揭示数据的内在结构和特征。

2024-08-05 15:36:36 472

原创线性判别分析（LDA）原理

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的，主要就是将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。总结来说就是“投影后类内方差小，类外方差大”。

2024-08-05 08:45:00 314

上面介绍的都是假设存在一个线性的超平面，可以让我们对数据进行投影。但是有些时候，数据不是线性的，不能直接进行PCA降维。这里就需要用到和支持向量机一样的核函数的思想，先把数据集从n维映射到线性可分的高维N>n,然后再从N维降维到一个低维度n', 这里的维度之间满足n'<n<N。使用了核函数的主成分分析一般称之为核主成分分析(Kernelized PCA, 以下简称KPCA。假设高维空间的数据是由n维空间的数据通过映射ϕ产生。

2024-08-02 20:35:49 736

原创 DBSCAN密度聚类介绍

DBSCAN是基于一组邻域来描述样本集的紧密程度的，参数(ϵ, MinPts)用来描述邻域的样本分布紧密程度。ϵ描述了某一样本的邻域距离阈值，MinPts描述了某一样本的距离为ϵ的邻域中样本个数的阈值。DBSCAN具体的密度描述定义总的来说就是由密度可达关系导出的最大密度相连的样本集合，即为我们最终聚类的一个类别，或者说一个簇。如何找到簇样本集合？DBSCAN任意选择一个没有类别的核心对象作为种子，然后找到所有这个核心对象能够密度可达的样本集合，即为一个聚类簇。

2024-07-30 15:47:00 562

原创谱聚类原理

谱聚类算法的主要优点有：1）谱聚类只需要数据之间的相似度矩阵，因此对于处理稀疏数据的聚类很有效。这点传统聚类算法比如K-Means很难做到2）由于使用了降维，因此在处理高维数据聚类时的复杂度比传统聚类算法好。谱聚类算法的主要缺点有：1）如果最终聚类的维度非常高，则由于降维的幅度不够，谱聚类的运行速度和最后的聚类效果均不好。2) 聚类效果依赖于相似矩阵，不同的相似矩阵得到的最终聚类效果可能很不同。

2024-07-29 16:10:39 825

原创 BIRCH聚类算法原理

每个节点包括叶子节点都有若干个CF，而内部节点的CF有指向孩子节点的指针，所有的叶子节点用一个双向链表链接起来。重要参数：1.每个内部节点的最大CF数B2.每个叶子节点的最大CF数L3.叶节点每个CF的最大样本半径阈值TCF Tree。

2024-07-29 11:56:30 978

原创 K-Means聚类算法

一个簇中所有数据的均值μ(j),通常被称为这个簇的“质心(centroids)”,j表示第j个簇。在一个二维平面中,一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数据点的纵坐标的均值。数据对象间距离的计算有很多种，算法通常采用欧氏距离来计算数据对象间的距离。

2024-07-28 23:25:05 715

原创 siRNA药物药效预测#Datawhale #夏令营

本次比赛主要是利用机器学习，来预测化学修饰过的siRNA机制下对靶基因的沉默效率，目的是构建和优化模型准确预测siRNA的沉默效应提升药物设计的效率和效果。

2024-07-28 22:03:17 200

原创随机森林算法

在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是RandomForestRegressor。当然RF的变种Extra Trees也有，分类类ExtraTreesClassifier，回归类ExtraTreesRegressor。由于RF和Extra Trees的区别较小，调参方法基本相同，本文只关注于RF的调参。RF需要调参的参数也包括两部分，第一部分是Bagging框架的参数，第二部分是CART决策树的参数。下面我们就对这些参数做一个介绍。

2024-07-28 16:02:06 823

原创 Bagging介绍

Bagging的理论基础主要依托于自助采样（Bootstrap Sampling）和偏差-方差分解定理。自助采样是一种从原始样本集中有放回地抽取样本形成新数据集的方法.Bagging利用自助采样生成多个有差异的训练集，训练出一系列个体学习器。根据偏差-方差分解定理，模型预测误差可拆分为偏差、方差和不可约误差三部分。Bagging通过引入随机性降低个体学习器间的相关性，进而降低集成模型的方差，提高整体预测性能。学习方法的泛化能力。

2024-07-27 15:37:16 689

2301_80813724的博客