机器学习
FarmerJohn
Java后端工程师。
肿瘤学研究生;平时也喜欢研究算法、统计学、机器学习、深度学习、贝叶斯分析、临床数据分析、生信数据分析、Android开发。
展开
-
马尔可夫聚类 MCL
本文转载自:聚类算法——MCLBackgroundDifferent ClusteringVector Clustering我们在描述一个人时,常常会使用他所拥有的特点来表示,比如说:张三,男,高个子,有点壮。那么,这就可以用四维向量来表示,如果再复杂一些,就是更高维的向量空间了。根据各个维度的特征进行聚类是常见的数据分析任务,这类聚类方法包括:系统聚类法、K均值聚类法等。Gr...转载 2020-03-17 22:05:16 · 5539 阅读 · 0 评论 -
内部验证
严格的建模流程,需要将数据划分成训练集和测试集,测试集不参与训练模型的参数(包括超参数)的过程。对于不需要选择超参数的模型(如广义线性模型或树模型的变量已确定时),直接使用训练集进行训练即可得到较为可靠的参数。但对于需要确定超参数的情况(比如SVM模型、广义线性模型或树模型需要筛选变量时),必须进一步将训练集划分成一部分验证集,以确定超参数。此时,内部验证是十分重要的环节。另外,当样本量不够大而缺...原创 2019-11-13 21:31:18 · 13330 阅读 · 0 评论 -
目标检测——传统算法
目标检测是计算机视觉中的重要任务之一。本系列博客将总结目标检测的各类算法,包括传统方法、基于CNN的算法(One stage、Two stage)。本文主要对传统方法进行概述,大部分思想源自网上的博客和论文。个人观点,广义的目标检测不仅包括物体检测(Object Detection),还包括边缘检测(Border Detection)及关键点检测(Landmark Detection)等。因此...原创 2019-09-16 21:01:02 · 5940 阅读 · 0 评论 -
XGBoost
本文借鉴自多篇博客,非原创。XGBoost是机器学习领域最近几年比较火热的一种十分强大的集成学习方法(系统),全称为eXtreme Gradient Boosting,由大牛陈天奇博士开发(陈天奇,交大ACM班毕业,华盛顿大学计算机博士)。预备知识BoostingBoosting是一类可将弱学习器提升为强学习器的集成学习算法。集成学习主要分为两大类,第一类是以Boosting...转载 2019-06-25 00:53:07 · 6012 阅读 · 0 评论 -
GBDT
在网上看到两篇不错的讲解GBDT的文章,决定转载,但已无法追溯原创作者(第一篇目前最早追溯到2012年CSDN上的一篇转载博客:GBDT(MART) 迭代决策树入门教程 | 简介,第二篇目前最早追溯到2017年的知乎专栏上一篇文章:Learn R | GBDT of Data Mining(二)),无论如何,向原创作者致敬。 GBDT(GradientBoostingDecis...转载 2019-06-25 00:01:17 · 5493 阅读 · 0 评论 -
高维数据中特征筛选方法的思考总结——单变量分析筛选法
基因组学、转录组学、蛋白组学及代谢组学等生信问题(高通量数据)中,面临的第一步往往就是降维(或者说筛选特征)。降维方法分为两大类:单变量分析降维法、多变量分析降维法。单变量降维常常使用FC值或者P值,多变量降维常常使用LASSO和PLS等方法。对于这个问题,将分为两篇文章进行探讨,本文着重探讨单变量分析筛选法。常规方法的问题常规的方法是使用P值法和FC值法。所谓P值法,就是对两组样本进行 ...原创 2019-06-11 21:06:44 · 4616 阅读 · 0 评论 -
高维数据中特征筛选方法的思考总结——多变量分析筛选法
前言:之前的文章(高维数据中特征筛选方法的思考总结——单变量分析筛选法)中,对单变量分析筛选变量进行了初步考量,本文将进一步总结多变量分析筛选法。由于本文多处摘录网上的博客,只是进行了归纳整理,因此笔者将本文定性为转载类(转载请注明出处:https://blog.csdn.net/fjsd155/article/details/93754257)。多变量分析方法根据建模特点可以分为线性降维和非...转载 2019-06-26 17:11:31 · 30411 阅读 · 2 评论 -
模型求解
本文主要总结模型的求解方法,包括优化目标的构造及根据优化目标求解模型参数。优化目标这部分摘自:机器学习中的范数规则化之(一)L0、L1与L2范数一般来说,监督学习可以看做最小化下面的目标函数: 其中,第一项 衡量我们的模型(分类或者回归)对第 i 个样本的预测值 和真实的标签之间的误差。因为我们的模型是要拟合我们的训练样本的嘛,所以我们要求这一项最小,也就是要...原创 2018-11-23 20:49:17 · 8367 阅读 · 0 评论 -
似然与极大似然估计
本文转自:似然与极大似然估计似然与概率在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性,比如抛硬币,...转载 2019-03-10 00:56:29 · 4030 阅读 · 0 评论 -
概率校准 Probability Calibration
对于二分类分类器,除了得到AUC评价指标,常还需要了解分类器预测概率的准确性。比如分类器预测某个样本属于正类的概率是0.8,那么就应当说明有80%的把握认为该样本属于正类,或者100个概率为0.8的里面有80个确实属于正类。根据这个关系,可以用测试数据得到Probability Calibration curves。假设我们考虑这样的一种情况:在二分类中,属于类别0的概率为0.500001,属...原创 2018-11-23 12:59:11 · 17071 阅读 · 2 评论 -
二分类模型AUC评价法
对于二分类模型,其实既可以构建分类器,也可以构建回归(比如同一个二分类问题既可以用SVC又可以SVR,python的sklearn中SVC和SVR是分开的,R的e1701中都在svm中,仅当y变量是factor类型时构建SVC,否则构建SVR)。二分类模型的评价指标很多,这里仅叙述AUC这个指标。AUC的具体原理此处不再叙述,可以参考相关资料,比如这个还行:ROC和AUC介绍以及如何计算AUC...原创 2018-11-22 23:40:57 · 20650 阅读 · 1 评论 -
LASSO回归
首先思考一个问题:正则化为什么可以防止过拟合?带着这个问题看下面的内容(第2部分大致能感性地回答这个问题)。本文有些部分参考了这篇博客:L0,L1,L2正则化浅析1、概念L0正则化的值是模型参数中非零参数的个数。L1正则化表示各个参数绝对值之和。L2正则化标识各个参数的平方的和。2、参数稀疏化2-1 实现参数的稀疏有什么好处吗?现实中,对于回归真正有意义的变...转载 2018-11-11 21:33:39 · 6752 阅读 · 5 评论 -
支持向量机SVM 汇总
关于支持向量机,看了一些理论讲解,比如周志华老师的《机器学习》,july大神的长文,zhouxy的系列博客。这里暂时贴几个推荐阅读哈哈。推荐资料july博文:支持向量机通俗导论(理解SVM的三层境界)zhouxy博文:机器学习算法与Python实践之(二)支持向量机(SVM)初级及之后的“进阶篇”和“实现篇”。周志华的《机器学习》之“支持向量机”。李航的《统计学习方法》...原创 2018-07-25 15:07:33 · 615 阅读 · 0 评论 -
机器学习预备知识
匆忙之中将凌乱的学习摘录记录于此,有胜于无吧。涉及部分预备知识,比较杂乱。线性代数1.内积2.范数3.正交4.二次型运筹学1.线性规划线性规划的求解方法:图解法、单纯形法等。2. 对偶问题3. 二次规划二次规划求解过程,转化成对偶问...原创 2018-07-23 10:39:11 · 563 阅读 · 0 评论