- 博客(29)
- 资源 (2)
- 收藏
- 关注
原创 【R语言】cbind和rbind函数
cbind和rbind函数cbind: 根据列进行合并,即叠加所有列,m列的矩阵与n列的矩阵cbind()最后变成m+n列,合并前提:cbind(a, c)中矩阵a、c的行数必需相符rbind: 根据行进行合并,就是行的叠加,m行的矩阵与n行的矩阵rbind()最后变成m+n行,合并前提:rbind(a, c)中矩阵a、c的列数必需相符 > a <- matrix(1:...
2018-12-31 10:24:23 53831 3
原创 【PaperReading】Prevalence and patterns of higher-order drug interactions in Escherichia coli
Prevalence and patterns of higher-order drug interactions inEscherichia coli大肠杆菌中高阶药物相互相互作用模式和普遍性Elif Tekin,Cynthia White,Tina Manzhu Kang,Nina Singh,Mauricio Cruz-Loya,Robert Damoiseaux,Va...
2018-12-30 19:19:15 1107
原创 【R语言】R语言常用函数:交集intersect、并集union、找不同setdiff、判断相同setequal
交集intersect、并集union、差集setdiff、判断相同setequal在使用R语言进行生物信息数据分析的过程中,需要经常比较不同集合之间元素的共性和差异,所以需要使用到交集、并集、找不同、判断相同等操作。交集:intersect两个向量的交集,集合可以是数字、字符串等# 两个数值向量取交集intersect(x=1:4, y = 2:6)# [1] 2 3 4...
2018-12-30 16:41:37 13465
翻译 【机器学习】Selecting good features – Part IV: stability selection, RFE and everything side by side
Selecting good features – Part IV: stability selection, RFE and everything side by side在我以前的文章中,我研究了单变量方法、线性模型和正则化以及随机森林的特征选择。在本文中,我将研究另外两种方法:稳定性选择和递归特征消除(RFE),这两种方法都可以考虑包装方法。它们都建立在其它(基于模型的)选择方法的基...
2018-12-16 15:47:59 1018
翻译 【机器学习】Feature selection – Part III: random forests
Selecting good features – Part III: random forests在我以前的文章中,我研究了单变量的特征选择和线性模型,以及用于特征选择的正则化。在这篇文章中,我将讨论随机森林,另一种流行的特征排名方法。随机森林特征重要性随机森林由于其相对良好的准确性、鲁棒性和易用性而成为最流行的机器学习方法之一。它们还提供了两种简单的特征选择方法:平均减少杂质(...
2018-12-16 14:30:58 1590
翻译 【机器学习】Feature selection – Part II: linear models and regularization
Selecting good features – Part II: linear models and regularization在我之前的文章中,我讨论了单变量特征选择,其中每个特征都是根据响应变量独立评估的。另一种流行的方法是利用机器学习模型进行特征排序。许多机器学习模型要么具有一些固有的特征内部排序,要么很容易根据模型的结构生成排序。这适用于回归模型、支持向量机、决策树、随机森林等。...
2018-12-16 14:14:58 337
转载 【机器学习】8种常见机器学习算法比较
8种常见机器学习算法比较简介机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-va...
2018-12-14 06:31:20 962
翻译 【机器学习】马修斯相关系数(Matthews correlation coefficient)
马修斯相关系数(Matthews correlation coefficient)马修斯相关系数是在使用机器学习作为二进制(2类)的质量的度量的分类,通过布赖恩W.马修斯在1975年由生物化学引入它考虑到真和假阳性和假阴性,并且通常是被视为一种平衡的措施,即使这些类别的规模大小不同也可以使用。MC实质上是观察到的类别和预测的二元分类之间的相关系数; 它返回介于-1和+1之间的值。系数+1...
2018-12-14 05:34:13 15304
转载 【机器学习】机器学习之特征选择
机器学习之特征选择特征选择方法初识:1、为什么要做特征选择在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。3、特征选取的原则获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强...
2018-12-14 04:11:54 1849
转载 【R语言】4种R包安装方式
4种R包安装方式第一种方式,当然是R自带的函数直接安装包了,这个是最简单的,而且不需要考虑各种包之间的依赖关系。对普通的R包,直接install.packages()即可,一般下载不了都是包的名字打错了,或者是R的版本不够,如果下载了安装不了,一般是依赖包没弄好,或者你的电脑缺少一些库文件,如果实在是找不到或者下载慢,一般就用repos=来切换一些镜像。 > in...
2018-12-14 02:49:12 151352 2
翻译 【机器学习】Feature selection – Part I: univariate selection
Feature selection – Part I: univariate selection特征选择——1:单变量选择原文链接:http://blog.datadive.net/selecting-good-features-part-i-univariate-selection/对于数据科学家或机器学习实践者来说,对特征选择/排序有良好的理解可能是一大财富。对这些方法的良好掌握导...
2018-12-13 14:26:38 926
原创 【机器学习】特征选择之最小冗余最大相关性(mRMR)与随机森林(RF)
特征选择之最小冗余最大相关性(mRMR)最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法,由Peng et.al提出。主要用途有机器学习,图像识别等。一种常用的特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。这就是P...
2018-12-13 11:39:57 15205 2
原创 【生信】KEGG数据库在线使用
KEGG数据库在线使用KEGG简介KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其关注的代谢途径有直观全...
2018-12-12 22:47:01 17216 4
转载 【机器学习】为什么机器学习模型需要对数据进行归一化?
为什么机器学习模型需要对数据进行归一化?原文链接:http://www.cnblogs.com/LBSer/p/4440590.html机器学习模型被互联网行业广泛应用,如排序、推荐、反作弊、定位(如:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?很多人并未搞清楚,维基百科给出的解释:1)归一...
2018-12-12 21:29:20 689
原创 【机器学习】R语言标准化(归一化)之scale()函数、sweep()函数
R语言标准化(归一化)之scale()函数、sweep()函数#数据集x<-cbind(c(1,2,3,4),c(5,5,10,20),c(3,6,9,12))#自己写标准化x_min_temp<-apply(x,2,min) x_min<-matrix(rep(x_min_temp,4),byrow=TRUE,ncol=3) #需要输入行数和列数...
2018-12-12 20:56:39 13290
原创 【机器学习】使用R语言进行机器学习特征选择
通过R语言进行机器学习中的特征选择特征选择是实用机器学习的重要一步,一般数据集都带有太多的特征用于模型构建,如何找出有用特征是值得关注的重要内容。基于caret包,使用递归特征消除法,其中rfe参数如下:x,预测变量的矩阵或数据框 y,输出结果向量(数值型或因子型) sizes,用于测试的特定子集大小的整型向量 rfeControl,用于指定预测模型和方法的一系列选项 一些列函...
2018-12-12 20:52:14 13570 5
转载 【机器学习】R语言进行机器学习方法及实例
R语言进行机器学习方法及实例机器学习的研究领域是发明计算机算法,把数据转变为智能行为。机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有价值的东西。机器学习一般步骤收集数据,将数据转化为适合分析的电子数据 探索和准备数据,机器学习中许多时间花费在数据探索中,它要学习更多的数据信息,识别它们的微小差异 基于数据训练模型,根据你要学习什么的设想...
2018-12-12 20:34:50 13962
原创 【机器学习】随机森林处理数据实践(基于R语言)
随机森林处理鸢尾花数据实践(基于R语言和Python语言)基于R语言使用随机森林处理鸢尾花数据实战R:randomForest包R语言中的randomForest包主要功能是分类和回归分析,一共提供了39个函数,最常用的就是randomForest来实现分类(Classification)和时间序列回归(Regression)实验准备:设置工作空间## 设置工作空间setw...
2018-12-10 09:41:16 14543 4
原创 【机器学习】信息、信息熵、信息增益、增益率及基尼系数的概念总结
信息、信息熵、信息增益、增益率及基尼系数的概念总结信息信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言,如果待分类的事物集合可以划分为多个类别当中,则第k类的信息可以定义如下:信息熵信息熵是用来度量不确定性,当熵越大,k的不确定性越大,反之越小假定当前样本集合D中第k类样本所占的比例为,则D的信息熵定义为:信息增益信息增益在决策树算法中是用来选择特征...
2018-12-07 16:33:35 3938
原创 【生信】“随机森林”在生物信息学方面的应用
“随机森林”在生物信息学方面的应用简介随机森林是一种基于决策树的机器学习算法,可以用于样本分类或回归任务,属于非线性分类器。因此它可以挖掘变量之间复杂的非线性的相互依赖关系。通过随机森林分析,可以找出区分两组样本间差异的关键成分。基础知识1. 集成学习(ensemble learning)通过建立多个模型组合来解决单一预测问题。工作原理是生成多个学习器模型,各自独立地学习和做出...
2018-12-07 16:08:43 3232 1
原创 java学习笔记(第11天)
成员变量和局部变量的区别: 作用域不同:局部变量的作用域仅限于定义它的方法;成员变量的作用域在这个类内部都是可见的; 初始值不同:java会给成员变量一个初始值,java不会给局部变量赋予初始值; 在同一个方法中,不允许有同名局部变量;在不同的方法中,可以有同名局部变量; 两类变量同名时,局部变量具有更高的优先级。构造方法: 使用new+构造方法 创建一个新的对象 构造方...
2018-12-06 22:07:23 228
原创 【机器学习】集成学习思维导图
集成学习与随机森林统计学的一个重要组成部分——统计推断(通过假设,验证进行分析处理),即通过实验的数据得出新的科学见解,而机器学习就是一种智能的数据挖掘技术,它依据先验的知识建立预测模型来识别大数据中的有用信息,广泛地用于数据拟合,数据分类,优化参数等实验数据的处理上。个体与集成集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,也被称为多分类器系统(m...
2018-12-05 23:07:06 821
转载 【机器学习】生成式对抗网络模型综述
生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络最最直接的应用是数据的生成,而数据质量的好坏则是评判GAN成功与否的关键。本文介绍了GAN最初被提出时的基本思想,阐述了其一步步演化、改进的动机和基本思想以及原理,从基于模型改进的角度介绍了WGAN,WGAN-GP,LSGAN,f...
2018-12-05 15:23:17 8565
原创 【Linux】Linux操作系统——配置ssh免密码登录远程服务器
ssh免密码登录远程服务器最简单的操作ssh免密码登录的原理是把本地电脑的公钥放在宿主机,然后使用本地电脑的私钥去认证。在本地电脑执行 /usr/bin/ssh-keygen -t rsa,安装提示一直回车即可,最后会看到~/.ssh目录下多了几个文件id_rsa (私钥)、id_rsa.pub (公钥)。 在本地电脑执行 scp ~/.ssh/id_rsa.pub user@rem...
2018-12-05 14:52:22 365
原创 【Linux】Linux操作系统查看服务器配置信息
查看服务器配置信息编写bash shell脚本查看Linux操作系统的服务器配置信息 1 #!/bin/bash 2 echo "This lists the information of this computer." 3 echo 4 echo "Hostname is $(tput setaf 3)`hostname`$(tput sgr0),\ 5 Ip add...
2018-12-05 14:45:49 2015 2
原创 【Linux】Linux操作系统常用命令
Linux操作系统常用命令LInux基本命令~:代表当前用户所在的home目录。如:/home/zhangsan $:用来只是普通用户输入命令的地方;对于root用户来说一般是‘#’ cat:查看文件,与‘<<END’连用可以用于输入大段数据 >:重定向符号,即把前面命令的输出写入到‘>’后面的文件中。 ls -l:列出文件的详细信息,还可加上-h参数,方便...
2018-12-05 14:37:03 458
原创 【生信】Docker生信基础
Docker生信基础Docker可以做什么?提供一个虚拟化的操作平台,便于安装依赖不同版本系统的工具软件 提供一个即时可用的应用软件或流程的镜像,开发者可将软件部署到镜像中,使用者直接下载使用 提供一个系统资源分配的灵活方式,可以为不同用户的程序分配独立的计算空间Docker的基本概念镜像 (Images): 是一种超轻量级的虚拟化方式。 镜像有自己的唯一ID,名字和标签,比如u...
2018-12-05 11:23:23 1343 1
转载 【笔记】Markdown用法介绍
Markdown用法介绍欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用...
2018-12-02 14:19:42 329
The brief introduction of diffusion model and stable diffusion
2023-04-14
转录调控中的非编码RNAs,以及肿瘤细胞中氨基酸代谢调控PPT
2022-11-06
集成学习原理与应用介绍(随机森林)
2022-11-06
桥区通航风险问题分析与案例研究
2022-10-28
DOES ENFORCEMENT OF INTELLECTUAL PROPERTY RIGHTS MATTER?
2022-10-28
Deep Facial Non-Rigid Multi-View Stereo
2022-10-28
为旅游交通服务的电池充电桩
2022-10-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人