![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 96
竹篱茅舍1997
生物信息学、python、R、Linux、Perl学习交流
展开
-
TreeExplainer原文精读: 用于树的可解释人工智能SHAP Tree
如果不近似,TreeExplainer调用的函数是, 其定义为https://github.com/slundberg/shap/blob/master/shap/cext/_cext.cc#L113。下面的代码引用了Python.hPyObjectreturns atypenumand aflagsstruct 是 C 语言中用来定义结构体类型的关键字。static 关键字可以用来修改变量或函数的存储类别。翻译 2023-05-28 13:12:44 · 1192 阅读 · 0 评论 -
机器学习中解决不平衡分类的10种技术
作为一名数据科学家,二分类是最常见的分类模型之一。在解决这些问题时,一个常见的问题是类不平衡(class imbalance)。当一个类别的观察结果高于其他类别时,就会存在类别失衡。示例:检测欺诈性信用卡交易。翻译 2023-05-11 16:58:20 · 1274 阅读 · 0 评论 -
图神经网络系列教程(1): Supervised graph classification with Deep Graph CNN
这种差异可归因于下面列出的少数因素,-我们使用了不同的训练方案,即对数据进行90/10的单一分割,而不是[1]中使用的重复10倍交叉验证方案。我们的目标是训练一个机器学习模型,该模型使用数据的图形结构以及图形节点可用的任何信息,例如蛋白质中化合物的化学属性,以预测之前未看到的图形的正确标签;DGCNN架构是在[1]中提出的(参见[1]中的图5),使用了[2]中的图卷积层,但修改了传播规则(详见[1])。层,以通过图卷积层的堆栈为每个节点学习的表示作为输入,为每个给定的图生成表示(也称为嵌入)。翻译 2023-04-14 18:04:57 · 624 阅读 · 1 评论 -
R中的主成分分析(Principal Component Analysis, PCA)
作为零售行业的数据科学家,假设您正试图从包含以下五个特征的数据集中了解是什么让客户满意:每月费用、年龄、性别、购买频率和产品评级。为了更好地分析并得出可操作的结论,我们需要了解数据集,或者至少将其可视化。人类无法轻易地可视化超过三个维度,因此可视化具有五个特征(维度)的客户数据并不简单。这就是主成分分析(, PCA)的用武之地。“但是,什么是主成分分析(它是一种统计方法,可用于分析高维数据并从中捕获最重要的信息。这是通过将原始数据转换到低维空间,同时将高度相关的变量整理在一起来完成的。翻译 2023-03-04 12:01:59 · 2011 阅读 · 1 评论 -
基于PyG(PyTorch Geometric)的图神经网络学习(1)
PyG *(PyTorch Geometric)*是一个建立在 PyTorch上的库,便于写和训练在结构化数据中具有广泛应用的图神经网络(Graph Neural Networks, GNNs)。翻译 2022-08-08 17:35:35 · 771 阅读 · 0 评论 -
三种模型验证方法:holdout, K-fold, leave one out cross validation(LOOCV)
Cross Validation: A Beginner’s GuideAn introduction to LOO, K-Fold, and Holdout model validationBy: Caleb Neale, Demetri Workman, Abhinay Dommalapati源自:https://towardsdatascience.com/cross-validation-a-beginners-guide-5b8ca04962cd文章目录Cross Validation翻译 2022-04-11 20:50:26 · 3119 阅读 · 0 评论 -
嵌套交叉验证的一致特征(Consensus features nested cross-validation)
5.5 嵌套交叉验证的一致特征(Consensus features nested cross-validation)参考:Parvandeh S, Yeh H W, Paulus M P, et al. Consensus features nested cross-validation[J]. Bioinformatics, 2020, 36(10): 3093-3098.代码: https://github.com/insilico/cncv浅谈关于特征选择算法与Relief的实现:htt翻译 2022-03-28 10:24:11 · 746 阅读 · 0 评论 -
递归特征消除(Recursive Feature Elimination)原理与Sklearn实现
递归特征消除(Recursive Feature Elimination)参考:Guyon, I., Weston, J., Barnhill, S., & Vapnik, V., “Gene selection for cancer classification using support vector machines”, Mach. Learn., 46(1-3), 389–422, 2002. https://link.springer.com/article/10.1023/A:1翻译 2022-03-26 20:37:06 · 11421 阅读 · 2 评论 -
基于mRMRe的最大相关最小冗余特征选择
基于mRMRe的特征选择参考:论文:De Jay N, Papillon-Cavanagh S, Olsen C, et al. mRMRe: an R package for parallelized mRMR ensemble feature selection[J]. Bioinformatics, 2013, 29(18): 2365-2368.代码:https://cran.r-project.org/web/packages/mRMRe/index.html5.1.1 方法介绍原创 2022-03-26 15:01:55 · 2054 阅读 · 1 评论 -
06.Logistic回归与最大熵模型(学习笔记)
06.Logistic回归与最大熵模型参考:袁春老师《大数据机器学习公开课》:https://www.xuetangx.com/course/THU08091001026/10333105李航老师《统计学习方法》:https://book.douban.com/subject/33437381/ppt下载自pythonic生物人,链接: https://pan.baidu.com/s/1H0vHLyqQXNxRFxNVQzpllQ 密码: im0u文章目录06.Logistic回归与最大原创 2022-03-14 13:37:22 · 1244 阅读 · 0 评论 -
05决策树与随机森林(学习笔记)
文章目录1. 决策树模型与学习基本概念2. 信息量和熵3. 决策树的生成3.1 决策树ID3算法4. 决策树的剪枝4.1 决策树算法的问题4.2 决策树的剪枝【P65】4.3 树的剪枝算法5. CART算法5.1 CART树的生成5.1.1 回归树的生成【P71】5.1.2 分类树的生成5.1.3 CART分类树的生成算法5.2 CART的剪枝5.2.1 剪枝,形成一个子树序列5.2.2 选取最优子树TαT_{\alpha}Tα6. 随机森林6.1 随机森林简介6.2 Bootstrapping和Bag原创 2022-03-12 16:44:02 · 855 阅读 · 0 评论 -
Machine Learning in Complex Networks读书笔记
文章目录第1章 简介1.1 大背景1.2 本书的关注点第1章 简介1.1 大背景(1)机器学习基本概念:监督学习,非监督学习,分类,回归,半监督学习。(2)复杂网络的发展历史:a. 1736年,欧拉在解决哥尼斯堡七桥问题时,奠定了图论基础。b.1959年,Paul Erdos和Alfred Reyni提出了random networks。c.1967年,Stanley Milgram发现了“六度分离”的概念,成为了小世界网络的研究的种子。d.1998年,Watts和Strogatz发现改变翻译 2020-09-15 13:19:56 · 368 阅读 · 1 评论