blacklee123-CSDN博客

转载如何在NCBI实现大批量数据的一一对应

有时我们手头会有一批数据，或者是只有大量的某些id。比方说：accession number、gi、geneid、symbol、go、unigene、pubmed、taxid等等。事实大部分数据库都会有提供一些专门的文件或工具来实现这些数据间大批量的一一对应。先来讲讲NCBI的。用FTP登陆ftp.ncbi.nih.gov（windows下可以直接打开或是用迅雷/Flastge

2014-07-30 20:51:13 3887

转载推荐系统开源软件汇总

转自：http://blog.csdn.net/cserchen/article/details/14231153

2014-07-29 15:35:14 1119

转载 elm极限学习机

一、极限学习机的概念极限学习机(Extreme Learning Machine) ELM，是由黄广斌提出来的求解单隐层神经网络的算法。 ELM最大的特点是对于传统的神经网络，尤其是单隐层前馈神经网络(SLFNs)，在保证学习精度的前提下比传统的学习算法速度更快。二、极限学习机的原理ELM是一种新型的快速学习算法，对于单隐层神经网络，ELM 可以随机初始化输入权重和偏

2014-07-14 16:00:09 2649

转载开源学习 Rweka

今天在找关联规则相关的资料时候，无意发现R语言中文论坛，虽然里面的资料有限，但是很有价值，譬如RWeka，一种开源的机器学习工具，在此予以介绍：背景介绍： #此前在首页部分显示#1）Weka：Weka有两种意思：一种不会飞的鸟的名字，一个机器学习开源项目的简称（Waikato Environment for Knowledge Analysis，http://www.cs.waikat

2014-06-19 13:19:04 1018

转载 bioinformatics databases

各种类型的数据库，仅供参考，希望大家一起补充综合数据库★ INSD,国际核酸序列数据库（International Nucleotide Sequence Databank）。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。★ EMBL库，欧洲分子生物学实验室的DNA和RNA 序列库。 http://www.ebi.ac.uk/embl.html

2014-06-10 10:04:56 5502

转载 MySQL安装图解

MySQL5.0版本的安装图解教程是给新手学习的,当前mysql5.0.96是最新的稳定版本。mysql 下载地址 http://www.jb51.net/softs/2193.html下面的是MySQL安装的图解，用的可执行文件安装的，详细说明了一下！打开下载的mysql安装文件mysql-5.0.27-win32.zip，双击解压缩，运行“setup.exe”，出现如下界面

2014-06-06 21:30:37 638

转载神经网络

神经元：在神经网络的模型中，神经元可以表示如下神经元的左边是其输入，包括变量x1、x2、x3与常数项1，右边是神经元的输出神经元的输出函数被称为激活函数（activation function），输出值被称为激活值（activation value）。激活函数有很多种，其中最简单的莫过于sigmoid函数。除非特别声明，否则博客里提

2014-06-05 09:19:38 1099

转载逻辑回归logistic regression

逻辑回归主要用于解决分类问题，在现实中有更多的运用，正常邮件or垃圾邮件车or行人涨价or不涨价用我们EE的例子就是：高电平or低电平同时逻辑回归也是后面神经网络到深度学习的基础。（原来编辑器就有分割线的功能啊……）一、Logistic Function（逻辑方程）同线性回归，我们会有一个Hypothe

2014-06-05 09:16:55 1078

转载线性回归及梯度下降法

一、线性回归线性回归主要运用于“预测”类问题：假设我们有一堆的数据（房间大小，房价）。给定一个没见过的房间大小，它的价格应该怎么估计呢？一般来说，我们可以假定房价h(x)和大小x之间存在一种线性关系。求出最优h(x)后，对于每一个大小x的房间，我们都可以给出一个估价h(x) 概念：COST FUNCTION（代价函数）

2014-06-05 08:57:02 1101

转载自编码器和深度学习

自编码算法与稀疏性目前为止，我们已经讨论了神经网络在有监督学习中的应用。在有监督学习中，训练样本是有类别标签的。现在假设我们只有一个没有带类别标签的训练样本集合，其中。自编码神经网络是一种无监督学习算法，它使用了反向传播算法，并让目标值等于输入值，比如。下图是一个自编码神经网络的示例。自编码神经网络尝试学习一个的函数。换句话说，它尝试逼近一个

2014-06-05 08:55:15 12026

转载随机森林Random Forest

引言在机器学习中，随机森林由许多的决策树组成，因为这些决策树的形成采用了随机的方法，因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时，其实就是让每一颗决策树进行分类，最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林可以既可以处理属性为离散值的量，如ID3算法

2014-05-10 11:29:22 1584

转载 caret包处理流程

caret包可以处理至少以下事情.1、初步筛选属性(过滤以下属性)a、找出属性值接近为常数的属性 nearZeroVarb、找出相关系数最大的属性 findCorrelationc、找出多重共线性的属性 findLinearCombos2、处理缺失值 preProcess(data, method=c("bagImput

2014-04-28 21:55:16 1494

转载关联规则的R语言实现

文章参考资料：xccd:肖凯大牛的博文《Rdatamining》《R IN A NUTSHELL》注:如有疑惑的问题,参阅下文的预备知识！关联分析的挖掘任务可分解为两个步骤：一是发现频繁项集，二是从频繁项集中产生规则。############################ 关联分析案例实践 ##############

2014-04-28 21:51:31 3047

转载 SVM

课程文本分类project SVM算法入门转自：http://www.blogjava.net/zhenandaci/category/31868.html（一）SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机

2014-04-24 17:13:19 1077

转载贝叶斯(Bayes)决策理论

贝叶斯决策理论方法所讨论的问题是：已知总共有c类物体，也就是说待识别物体属于这c类中的一个类别，对这c类不同的物理对象，以及各类在这d维特征空间的统计分布，具体说来是各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下，如何对某一样本按其特征向量分类的问题。由于属于不同类的待识别对象存在着呈现相同观察值的可能，即所观察到的某一样本的特征向量为X，而在

2014-04-23 23:06:54 4052

转载核函数方法

核函数方法简介（1）核函数发展历史早在1964年Aizermann等在势函数方法的研究中就将该技术引入到机器学习领域，但是直到1992年Vapnik等利用该技术成功地将线性SVMs推广到非线性SVMs时其潜力才得以充分挖掘。而核函数的理论则更为古老，Mercer定理可以追溯到1909年，再生核希尔伯特空间(ReproducingKernel Hilbert Space, R

2014-04-17 15:21:41 1644

转载贝叶斯决策

贝叶斯决策理论方法在进行分类时要求：(1)各类别的总体概率密度函数的分布是已知的；(2)要决策分类的类别数数是一定的特征空间、特征向量、先验概率、类条件概率密度函数、出发点:概率的不同分类决策与相应的决策代价之间的定量折中假定：所有的有关的概率结构已知-->基于常识的判别过程几种常见的决策规则1)基于最小错误率的贝叶斯决策实质:通过观察x把状态的先验概率P(

2014-04-17 09:16:10 1811

转载 R语言多元分析系列汇总

R语言多元分析系列之一：主成分分析主成分分析（principal components analysis， PCA）是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分

2014-04-08 17:13:05 6087

转载协方差矩阵的概念及matlab计算

今天看论文的时候又看到了协方差矩阵这个破东西，以前看模式分类的时候就特困扰，没想到现在还是搞不清楚，索性开始查协方差矩阵的资料，恶补之后决定马上记录下来，嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差矩阵。统计学的基本概念学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合，依次给出这些概念的公式描述，这些高中学过数

2014-04-04 16:49:23 1502

转载用编程工具实现数据可视化的几个选择

用编程工具实现数据可视化的几个选择本文摘自《鲜活的数据：数据可视化指南》3.2节不用太紧张。掌握一点点编程技巧，你就能利用数据做更多的事情，远远超过那些开箱即用的软件。编程技巧能赋予你更加灵活的能力，而且各种类型的数据都能适应。大多数设计新颖、令人惊艳的数据图都是通过代码或绘图软件实现的，很有可能两者兼有。有关绘图软件我们稍后也会谈到。对于新手来说代码可能颇为神秘——我也是

2014-03-19 21:50:07 2277

原创本地FTP服务器

实验室相互传文件时，使用扣扣或者U盘都不方便，下面介绍一个新的方法（1）在C盘命令行输入ipconfig ，点enter键就会显示本地IP地址等信息记住本地IP地址（2）安装FileZilla server软件，下载地址：https://filezilla-project.org/这个地址可以下载FileZilla Client和

2014-03-14 16:28:41 708

原创磁盘清理&磁盘分区

实验室的公用台式机是历届师兄师姐公用的，终于只有40G的C盘被大红色满满的充斥着，显示只剩不足200k的剩余空间，导致姐姐连个文献都下不来....于是开始各种磁盘碎片整理、垃圾清理、磁盘分区，不知道哪一步做错了QQ快捷方式被删了，只能登webQQ,不过界面还蛮友好的

2014-03-13 19:07:06 1314

原创将GEO的soft 数据转换为expression matrix

#从soft文件中得到mRNA 和 miRNA 的表达值#或者在命令行直接运行 getgeo --file=GSE16441_family.soft #【若soft 数据在多个platform上得到的，就分别运行】 use Microarray::GEO::SOFT; use Cwd; # initialize my $soft = Micr

2014-03-08 21:47:32 9294 2

原创 Oralce逻辑结构

Oralce学习之逻辑结构逻辑结构就是Database中的数据文件的组织结构。表空间（TABLESPACE）、段（SEGMENT）、区（EXTENT）、块（BLOCK）TABLESAPCE：系统表空间，回滚表空间，临时表空间（SMON进程要负责的部分），用户表空间。SEGMENT：和用户建立的table相对应。EXTENT：他的存在是对BLOCK与SEGMENT之间大小差异的一

2014-03-08 14:40:26 698

原创 Oracle体系结构_2

Oralce学习之体系结构上篇大概的学习了Oracle的体系结构，提到了SGA中有很多的后天进程，他们都是干嘛的呢？下面自己总结下，还是吧那幅图贴出来.箭头指向那8个后台进程：PMON (Processes Monitor):进程监视器顾名思义，就是对Oracle中的别的进程进行监视的，你提交的sql语句半路挂掉了，他会进行回滚，就不需要你手工Rollback了。对于后台进

2014-03-08 14:35:37 655

原创 Oracle体系结构_1

Oralce学习之体系结构Oracle由实例（instance）和数据库（database）组成。实例部分负责与用户的直接的操作交互，数据库部分呢，显而易见是进行持久性的数据的存储，数据库嘛，总的存数据来着。实例存在于内存中，由共享内存区SGA（System Global Area）和一系列的后台进程组成。其中SGA包括三个主要方面：共享池（shared pool），

2014-03-08 14:30:39 673

转载什么是生命？演讲原稿

【原题】WHAT IS LIFE?【译题】什么是生命【作者】ERWIN SCHRODINGER【题注】作者将1943年于都柏林关于生命的演讲稿发表于次年1944年，以纪念其父母第一章古典物理学家对这个主题的探讨1. 研究的一般性质和目的（The Classical Physicist's Approach to the Subject）这本小册子是一

2014-03-04 20:25:21 4518

转载 MIT算法导论-插入排序与归并排序及时间复杂度计算

前言一、插入排序的场景1.1 插入排序简介根据《算法导论》中的描述，插入排序可以由“扑克抓牌”来解释，当我们抓牌的时候会进行排序，抓到的第一张牌，放置在第一的位置，后续抓到的牌与之前的牌进行比较后，插入到相应位置。那么插入排序的需求可以描述为：输入：n个数输出：对输入序列的一个排序，使得a1' ≤ a2' ≤ … ≤ an' （亦可以降序排列）

2014-03-03 20:07:34 3087

转载常用连续型分布介绍及R语言实现

R的极客理想系列文章，涵盖了R的思想，使用，工具，创新等的一系列要点，以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语言的社区在迅速扩大成长。现在已不仅仅是统计领域，教育，银行，电商，互联网….都在使用R语言。要成为有理想的极客，我们不能停留在语法上，要

2014-03-03 18:28:27 2413

转载概率基础和R语言

转载：http://blog.fens.me/r-probability/R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语言的社区在迅速扩大成长。现在已不仅仅是统计领域，教育，银行，电商，互联网….都在使用R语言。要成为有理想的极客，我们不能停留在语法上，要掌握牢固的数学，概率，统计知

2014-03-03 18:26:56 2702

转载 R语言实现Google 搜索引擎的pagerank算法

PageRank算法R语言实现算法为王系列文章，涵盖了计算机算法，数据挖掘(机器学习)算法，统计算法，金融算法等的多种跨学科算法组合。在大数据时代的背景下，算法已经成为了金字塔顶的明星。一个好的算法可以创造一个伟大帝国，就像Google。算法为王的时代正式到来….关于作者：张丹(Conan), 程序员Java,R,PHP,Javascriptweibo：@Conan

2014-03-03 16:56:04 2108 1

转载 apply lapply sapply等R函数

转载出处：http://www.ats.ucla.edu/stat/r/library/advanced_function_r.htmR Library: Advanced functionsThe R program (as a text file) for the code on this page.In order to see more than just the

2014-03-03 15:14:55 1386

转载 spss多因素方差分析

多因素方差分析多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。SPSS调用“Univariate”过程，检验不同水平组合之间因变量均数，由于受不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用，也可以分析因素之间的交互作用，以及分析协方差，以及各因素变量与协变量之间的交互作用。该过程要求因变量是从多元正态总体随机采样得来，且总体中各单元的方差相同。

2014-01-13 21:14:54 35841

转载 SPSS做单因素方差分析

问题：对小白鼠喂以三种不同的营养素，目的是了解不同营养素增重的效果。采用随机区组设计方法，以窝别作为划分区组的特征，以消除遗传因素对体重增长的影响。现将同品系同体重的24只小白鼠分为8个区组，每个区组3只小白鼠。三周后体重增量结果(克)列于下表，问小白鼠经三种不同营养素喂养后所增体重有无差别？区组号营养素1营养素2

2014-01-13 20:33:06 8297

转载 miRNA的命名规则

一、miRNA的定义miRNA(microRNA)是一组由基因组编码的长度约17～25个核苷酸的非编码RNA，通过和靶基因mRNA碱基配对引导沉默复合体(RISC)降解mRNA或阻碍其翻译。miRNA在物种进化中相当保守，在植物、动物和真菌中发现的miRNA大部分在特定的组织和发育阶段表达。miRNA的组织特异性和时序性，决定组织和细胞的功能特异性，表明miRNA在细胞生长和发育过程的调节

2014-01-11 11:30:01 5745

转载 T检验、F检验

1.T检验和F检验的由来一般而言，为了确定从样本(sample)统计结果推论至总体时所犯错的概率，我们会利用统计学家所开发的一些统计方法，进行统计检定。通过把所得到的统计检定值，与统计学家建立了一些随机变量的概率分布(probabilitydistribution)进行比较，我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现，出现这结果的机率很少，亦即

2014-01-10 21:20:11 2316

转载处理芯片cel格式数据的全自动R代码

>source(”http://bioconductor.org/biocLite.R”)>biocLite()全自动。只需要设置工作路径以及filelist.txt文件即可。filelist.txt，必须与CEL文件一起放置在工作目录内，文件以空格为间隔，分两列，分别是filename和factor 例filename factorMS1_(Mouse430_

2014-01-10 21:18:48 10087

转载绘制heatmap

我们在分析了差异表达数据之后，经常要生成一种直观图－－热图(heatmap)。这一节就以基因芯片数据为例，示例生成高品质的热图。比如钢蓝渐白配色的热图首先还是从最简单的heatmap开始。> library(ggplot2)> library(ALL) #可以使用biocLite("ALL")安装该数据包> data("ALL")>

2014-01-10 21:14:58 3772

转载 R中的距离与聚类

摘要: 聚类是建模的起点，在没有目标的前提下，对研究对象按照距离分为不用的组。组内的距离尽可能小，组间距离尽可能大；最常用的两种聚类方法是系统聚类和k-means。简介：聚类是建模的起点，在没有目标的前提下，对研究对象按照距离分为不用的组。组内的距离尽可能小，组间距离尽可能大；最常用的两种聚类方法是系统聚类和k-means；系统聚类是

2014-01-10 21:05:16 2180

转载电影爱好者的R函数

摘要: 作为一个伪影迷，经常纠结一些电影该不该下，要不要看。毕竟吾生也有涯而片源无涯。还好可以去豆瓣一类的地方看看大家的评分择优录用。作为一个伪影迷，经常纠结一些电影该不该下，要不要看。毕竟吾生也有涯而片源无涯。还好可以去豆瓣一类的地方看看大家的评分择优录用。去豆瓣查分需要登录网站搜索再鼠标点点点，如果要查好几部电影就有点费事儿。其实可以用R写个函

2014-01-10 21:03:50 1055

GBDT算法C++源码

libstdc++.so.6.0.20

Python分词库smallseg

MFC计算器模板

空空如也