R
Hookee
这个作者很懒,什么都没留下…
展开
-
R语言常用函数
前言:关于R在R的官方教程里是这么给R下注解的:一个数据分析和图形显示的程序设计环境(A system for data analysis and visualization which is built based on S language.)。R的源起R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主转载 2013-06-20 15:50:15 · 14804 阅读 · 0 评论 -
limma包的使用技巧
limmar package是一个功能比较全的包,既含有cDNA芯片的RAW data输入、前处理(归一化)功能,同时也有差异化基因分析的“线性”算法(limma: Linear Models for Microarray Data),特别是对于“多因素实验(multifactor designed experiment)”。limmar包的可扩展性非常强,单通道(one channel)或者转载 2014-05-06 16:44:59 · 12468 阅读 · 1 评论 -
R语言多元分析系列
主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够转载 2014-03-08 14:14:46 · 1754 阅读 · 0 评论 -
Power Analysis
OverviewPower analysis is an important aspect of experimental design. It allows us to determine the sample size required to detect an effect of a given size with a given degree of confidence. Conv转载 2014-03-05 16:36:43 · 2771 阅读 · 0 评论 -
数据挖掘的R包和函数的集合
数据挖掘的R包和函数的集合1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法:转载 2014-03-05 13:15:35 · 1370 阅读 · 0 评论 -
R语言多元分析系列之一:主成分分析
主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够转载 2014-03-05 13:19:50 · 1929 阅读 · 0 评论 -
R语言编程入门--replicate()函数比较有意思!
I. 导论简单来讲,编程是借助计算机来解决某个问题。学习编程的就是训练我们解决问题的能力。有这样一种说法:在未来,不会编程的人即是文盲。1 为什么要学习R编程大部分情况下解决某些问题还需要依赖一些事实或数据,结合数据分析的框架和计算工具来帮助我们决策和判断。这时候R语言编程就会派上用场。例如从大的方面来看,投资方要决定在何处建立风力发电场,就需要采集天气数据加以建模分析转载 2014-02-12 10:49:44 · 13149 阅读 · 0 评论 -
R入门
基础ls()显示内存中的对象rm()删除内存中对象,rm(list=ls())删除全部?lm显示帮助help(lm)帮助getwd()获取当前工作目录setwd("C:/data")改变工作目录从外部文件中读取数据mydatascan()返回一个数值型向量read.fwf()用于读取固定宽度格式的数据存储数据转载 2014-02-12 10:50:25 · 768 阅读 · 0 评论 -
基因芯片(Affymetrix)分析2:芯片数据预处理
芯片质量分析芯片数据预处理获取差异表达基因GO和KEGG分析聚类分析(本文于2013.09.04更新)基因芯片技术的特点是使用寡聚核苷酸探针检测基因。前一节使用ReadAffy函数读取CEL文件获得的数据是探针水平的(probe level),即杂交信号,而芯片数据预处理的目的是将杂交信号转成表达数据(即表达水平数据,expression level data)。存储探针水平数据的转载 2014-02-24 10:17:30 · 1962 阅读 · 0 评论 -
R语言学习笔记(2):数据类型和数据结构
R中的数据结构主要面向《线性代数》中的一些概念,如向量、矩阵等。值得注意的是,R中其实没有简单数据(数值型、逻辑型、字符型等),对于简单类型会自动看做长度为1的向量。比如:> b=5 > length(b) [1] 1 > typeof(b) [1] "double" > mode(b) [1] "numeric" R中最重要的数据结构是向量(vector)和矩阵(matrix)。转载 2014-01-22 10:35:57 · 1099 阅读 · 0 评论 -
R语言进阶之3:数据汇总/透视/提炼
一、行列求和、平均值和频度rowSums, colSums, rowMeans, colMeans 可以简单理解为按行或列求和或求均值,table把数字或字符当成因子统计频度,都相当简单:> a - array(rep(1:3, each=3), dim=c(3,3)) > a [,1] [,2] [,3] [1,] 1 2 3 [2,] 1 2转载 2014-01-22 10:34:36 · 1105 阅读 · 0 评论 -
议员是如何投票的?
议员是如何投票的?[latexpage]一、议员投票这个数据在近几年的图模型文章中常能见到,并且已有很多深入的讨论——包括图结构随时间变化、多图联合估计等情况。本文只涉及单个图结构的估计,此外笔者对政治不了解,因此文中摘录wiki的相关评论。从 http://www.senate.gov 可以看到senators每次投票的结果。那么,你关心的议员在每次投票中转载 2013-08-30 10:29:55 · 1016 阅读 · 0 评论 -
用R语言实现向量化与并行计算
应用场景决定知识的储备与工具的选择,反过来,无论你选择了什么样的工具,你一定会努力地把它改造成符合自己应用场景所需的那个样子。从这个道理来说,我选择了R作为数据挖掘人员手中攻城陷池的那把云梯,并努力地把它改造成自己希望的那个样子。我最初接触到专门用于科学计算的工具,是大名鼎鼎的matlab,正如它帮助了无数中国学生顺利毕业的赫赫功劳一样,它是我对于向量化计算的启蒙老师。用过matlab的人转载 2013-08-07 16:17:35 · 1957 阅读 · 0 评论 -
从随机过程到马尔科夫链蒙特卡洛方法
1. Introduction第一次接触到 Markov Chain Monte Carlo (MCMC) 是在 theano 的 deep learning tutorial 里面讲解到的 RBM 用到了 Gibbs sampling,当时因为要赶着做项目,虽然一头雾水,但是也没没有时间仔细看。趁目前比较清闲,把 machine learning 里面的 sampling methods 理转载 2014-05-21 10:18:04 · 1494 阅读 · 0 评论