amw5181360-CSDN博客

转载 [转载]网络爬虫（12）：爬虫框架Scrapy的第一个爬虫示例入门教程

我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问：把网站装进爬虫里，总共分几步？答案很简单，四步：新建项目 (Project)：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的目标制作爬虫（Spider）：制作爬虫开始爬取网页存储内容（Pipeline）：设计管道存储爬取内容好的，基本流程...

2015-07-29 22:58:00 256

转载 Python正则表达式指南

Python正则表达式指南本文介绍了Python对于正则表达式的支持，包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式，这些主题请查看其他教程。注意：本文基于Python2.4完成；如果看到不明白的词汇请记得百度谷歌或维基，whatever。尊重作者的劳动，转载请注明作者及原...

2015-07-25 22:00:00 223

转载最小二乘法和最大似然法

对于最小二乘法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小。而对于最大似然法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然，这是从不同原理出发的两种参数估计方法。在最大似然法中，通过选择参数，使已知数据在某种意义下最有可能出现...

2014-09-27 08:58:00 392

转载 BEDTools简介、安装与部分工具使用简介

简介1、概述BEDTools是可用于genomic features的比较，相关操作及进行注释的工具。而genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示，用UCSC Genome Browser进行可视化比较。2、与BEDTools...

2014-08-05 10:45:00 1672

转载 R学习-方差分析

单因素方差分析题解单因素四水平试验四种不同配方材料A1,A2,A3,A4生产出的原件，寿命如下表，问：四种不同配方下原件的使用寿命有无显著差异lamp<-data.frame(X=c(1600, 1610, 1650, 1680, 1700, 1700, 1780, 1500, 1640,1400, 1700, 1750, 1640, 1550...

2014-08-04 12:48:00 454

转载 Logistic Regression in R

1.模型简介：说起统计中最常用的模型，非回归莫属。在挖掘中，也只有回归能很好的解决因变量为连续型变量的预测问题，这篇文章主要对回归中一种特殊的形式：Logistic回归。Logistic回归解决的是分类问题，特别在二项分布中，Logistic是最重要的模型（没有之一）。Logistic回归根据因变量类别不同，又可以分为Binary Logistic 回归分析和Multinomia...

2014-05-29 17:40:00 387

转载从随机过程到马尔科夫链蒙特卡洛方法

1. Introduction第一次接触到 Markov Chain Monte Carlo (MCMC) 是在 theano 的 deep learning tutorial 里面讲解到的 RBM 用到了 Gibbs sampling，当时因为要赶着做项目，虽然一头雾水，但是也没没有时间仔细看。趁目前比较清闲，把 machine learning 里面的 samplin...

2014-05-21 10:18:00 156

转载机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

2014-05-13 08:57:00 101

转载机器学习中的数学(4)-线性判别分析（LDA）, 主成分分析(PCA)

2014-05-13 08:55:00 77

转载机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

2014-05-13 08:55:00 88

转载机器学习中的数学(2)-线性回归，偏差、方差权衡

2014-05-13 08:54:00 110

转载机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

2014-05-13 08:53:00 89

转载 limma包的使用技巧

limmar package是一个功能比较全的包，既含有cDNA芯片的RAW data输入、前处理（归一化）功能，同时也有差异化基因分析的“线性”算法（limma: Linear Models for Microarray Data），特别是对于“多因素实验（multifactor designed experiment）”。limmar包的可扩展性非常强，单通道（one c...

2014-05-06 16:44:00 1995

转载多重比较校正中的一些概念

关于多重比较校正，虽然曾经查过很多东西，也大概记住一些，但最近发现没留下多少正确的印象。所以又温习了一遍，稍加整理，留备后用。当然，这些还是我自己的理解，如果有不对的地方，还请指出 :)主要内容均来自wikipedia以及这个网页.假设我们手上有一枚硬币，想通过抛10次硬币的方法检验它的金属分布是否均匀，结果发现扔10次，有9次国徽朝上。此时我们打算下结论说它...

2014-03-24 16:58:00 1465

转载关联规则：R与SAS的比较

啤酒和尿布的故事是关联分析方法最经典的案例，而用于关联分析的Apriori算法更是十大数据挖掘算法之一（http://www.cs.uvm.edu/~icdm/algorithms/index.shtml，这个排名虽然是几年前的调查结果，但是其重要性仍可见一斑）。本文以《R and Data Mining》书中使用的泰坦尼克号人员的生存数据为例，介绍如何使用R和SAS的A...

2014-03-24 09:08:00 377

转载主成分分析在生命科学研究中的应用

主成分分析常常用于基因组全序列表达研究，但是，到底什么是主成分分析？如何将这种方法用于对高维度数据的分析中呢？生命科学研究中采用的一些测定方法，对每个样品所采集的数据的变量要多于所测定的样品数。例如，DNA芯片及质谱仪可以对上百个样品中数以千计的mRNAs或蛋白质水平进行测定。诸如此类的高维度测定使得样品的分析结果很难清晰便捷地进行判断，也限制了对数据进...

2014-03-13 11:32:00 651

转载 [循证理论与实践] Meta分析系列之六：间接比较及网状 Meta 分析

在临床实践中，经常会碰到没有直接比较的证据或者需要从众多干预措施中选择对患者最佳措施的情况，此时，研究者往往会从随机对照试验（RCT）中寻找间接证据，这就形成了间接比较的Meta分析或多种干预措施比较的Meta分析（网状Meta分析）。1、间接比较Meta分析间接比较（indirect comparison）是指通过干预措施A vs. C和干预措施...

2014-03-11 12:41:00 1601

转载 [循证理论与实践] Meta分析系列之五：贝叶斯 Meta 分析与 WinBUGS 软件

贝叶斯Meta分析（Bayesian Meta-Analysis）是近年来基于贝叶斯统计发展起来的一种新型的Meta分析方法，主要采用“马尔科夫链—蒙特卡罗”（Markov chain Monte Carlo，MCMC）方法、使用WinBUGS软件进行。1、起源与发展英国数学家Bayes T于1763年在《论有关机遇问题的求解》中提出了贝叶斯公式和一种归纳推...

2014-03-11 12:41:00 870

转载 [循证理论与实践] Meta分析系列之四：观察性研究的质量评价工具

观察性研究（observational study）又称非实验性研究(non-experimental study），是指没有加入研究人员的任何干预（试验的或其他方面）措施，允许事件自然发展的研究过程，与随机对照试验相比，观察性研究更容易受到偏倚风险影响，发生选择性偏倚的风险大于实验性研究。观察性研究的Meta分析具有重要意义①对观察性研究进行定量分析,...

2014-03-11 12:40:00 1675

转载 [循证理论与实践] meta分析系列之三: 随机对照试验的质量评价工具

meta分析是对原始研究的二次综合分析与评价，其质量受纳入原始研究质量"评价的方法"评价者的知识水平及观点的影响。若 meta分析纳入的原始研究质量低，且未对原始研究方法学质量进行正确评价，meta分析的结果和结论可能是不正确的，从而对临床实践造成误导，因此，对 meta分析纳入的原始研究质量进行严格的评价尤为重要。1、临床研究类型简介临床研究按照...

2014-03-11 12:39:00 1373

转载 [循证理论与实践] meta分析系列之二: meta分析的软件

1、编程软件（1）StataStata软件是基于C语言的一个功能强大而又小巧玲珑的统计分析软件，最初由美国计算机资源中心研制，现为stata公司的产品。(2) R软件R软件是基于S语言的一种免费开放式的统计编程环境，由auckland 大学 Ross Ihaka 和Robert Gentlemen及其他志愿者开发，目前由R核心开发小组维护...

2014-03-11 12:37:00 1562

转载 [循证理论与实践] meta分析系列之一: meta分析的类型

证据是循证医学( Evidence-based medcine,EBM) 的核心，基于随机对照试验( RCT) 的系统评价/meta分析是当前公认的最高级别证据。meta分析在医学领域应用最为广泛，应用最多的是对干预性的随机对照试验的评价，在观察性研究和交叉对照研究中也得到推荐。1、单组率的meta分析单组率的meta分析，是一种只提供了一组人...

2014-03-11 12:36:00 1204

转载 R语言多元分析系列

主成分分析（principal components analysis， PCA）是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的...

2014-03-08 14:14:00 286

转载马尔可夫入门概念

为了清楚整理马尔可夫相关概念，做了下笔记，首先抛出一些概念：1 【马尔可夫性质马尔可夫过程马尔可夫链】概念：其未来由现在决定的程度，使得我们关于过去的知识丝毫不影响这种决定性。这种在已知“现在”的条件下，“未来”与“过去”彼此独立的特性就被称为马尔可夫性，具有这种性质的随机过程就叫做马尔可夫过程，其最原始的模型就是马尔可夫链。实例1：用...

2014-03-06 09:37:00 122

转载 Power Analysis

OverviewPower analysis is an important aspect of experimental design. It allows us to determine the sample size required to detect an effect of a given size with a given degree of confi...

2014-03-05 16:36:00 884

转载 R语言多元分析系列之一：主成分分析

主成分分析（principal components analysis， PCA）是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这...

2014-03-05 13:19:00 820

转载数据挖掘的R包和函数的集合

数据挖掘的R包和函数的集合1、聚类常用的包： fpc，cluster，pvclust，mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan...

2014-03-05 13:15:00 118

转载从决策树学习谈到贝叶斯分类算法、EM、HMM

第一篇：从决策树学习谈到贝叶斯分类算法、EM、HMM （Machine Learning & Data Mining交流群：8986884）引言最近在面试中，除了基础 & 算法 & 项目之外，经常被问到或被要求介绍和描述...

2014-02-28 09:33:00 147

转载基因芯片（Affymetrix）分析3：获取差异表达基因

芯片质量分析芯片数据预处理获取差异表达基因GO和KEGG分析聚类分析(本文于2013.09.04更新）“差异”是个统计学概念，获取差异表达基因就要用统计方法，R的统计功能很强大，适合做这样的事情。用前面的方法读取数据：library(affy)library(tcltk)filters <- matrix(c("CEL file",...

2014-02-24 20:33:00 434

转载基因芯片（Affymetrix）分析2：芯片数据预处理

芯片质量分析芯片数据预处理获取差异表达基因GO和KEGG分析聚类分析(本文于2013.09.04更新）基因芯片技术的特点是使用寡聚核苷酸探针检测基因。前一节使用ReadAffy函数读取CEL文件获得的数据是探针水平的（probe level），即杂交信号，而芯片数据预处理的目的是将杂交信号转成表达数据（即表达水平数据，expression ...

2014-02-24 10:17:00 812

转载偏相关系数

在多元相关分析中，简单相关系数可能不能够真实的反映出变量X和Y之间的相关性，因为变量之间的关系很复杂，它们可能受到不止一个变量的影响。这个时候偏相关系数是一个更好的选择。偏相关系数是在排除了其他变量的影响下计算变量间的相关系数。假设我们需要计算X和Y之间的相关性，Z代表其他所有的变量，X和Y的偏相关系数可以认为是X和Z线性回归得到的残差Rx与Y和Z线性回归得到的残差Ry之...

2014-02-19 09:24:00 2528

转载 R入门

基础ls()显示内存中的对象rm()删除内存中对象,rm(list=ls())删除全部?lm显示帮助help(lm)帮助getwd()获取当前工作目录setwd("C:/data")改变工作目录从外部文件中读取数据mydata<-read.table("test.data"), 返回的是一个数据框s...

2014-02-12 10:50:00 144

转载 R语言学习笔记(2)：数据类型和数据结构

R中的数据结构主要面向《线性代数》中的一些概念，如向量、矩阵等。值得注意的是，R中其实没有简单数据（数值型、逻辑型、字符型等），对于简单类型会自动看做长度为1的向量。比如：>b=5>length(b)[1]1>typeof(b)[1]"double">mode(b)[1]"numeric"R中最重要的数据结构是向...

2014-01-22 10:35:00 357

转载 R语言进阶之3：数据汇总/透视/提炼

一、行列求和、平均值和频度rowSums, colSums, rowMeans, colMeans 可以简单理解为按行或列求和或求均值，table把数字或字符当成因子统计频度，都相当简单：>a<-array(rep(1:3,each=3),dim=c(3,3))>a[,1][,2][,3][1,]1...

2014-01-22 10:34:00 173

转载 [转载]蛋白质相互作用数据库

去，来，最终还是到蛋白质！PPI：protein-proteininteraction1.DIP(databaseofinteractingproteins)http://dip.doe-mbi.ucla.edu/dip/Main.cgi在页面点击Searchby:[protein][sequence][m...

2014-01-10 09:21:00 1461

转载基因芯片筛选差异表达基因方法比较

摘要: 基因芯片筛选差异表达基因方法比较单文娟, 童春发, 施季森摘要: 使用计算机模拟数据和真实的芯片数据, 对8 种筛选差异表达基因的方法进行了比较分析, 旨在比较不同方法对基因芯片数据的筛选效果。模拟数据分析表 ...基因芯片筛选差异表达基因方法比较单文娟, 童春发, 施季森摘要: 使用计算机模拟数据和真实的...

2014-01-07 11:22:00 1572

转载生物信息学必读100篇论文

生物信息学：生物信息学时应用信息科学的知识和方法，搜集、整理、贮存、分析生命科学的一门新兴学科，是现代医学生物学研究和分析的必备工具。CMBI曾就当今网上的各种专业网站及专业数据库作过报道，具体请参阅生物信息网站评述。这次CMBI再从《Bioinformatics》这一国际上最为著名的专业杂志中摘编了两年来发表的最重要的一百多篇论文，供读者参考。总论The Econo...

2013-12-03 16:00:00 951

转载用R和BioConductor进行基因芯片数据分析(三)：计算median

我们已经知道要分析的数据对每个基因有3个重复测定值，经过缺失值填充后，每个基因都有3个可用值。这一步很简单，就是取这3个值的中位数，即median。方法很多，在excel中可以用median函数;在R中以下代码进行操作：get_median<-function(i,j){num_vec<-c(imputeddata[i*3-2...

2013-11-27 09:51:00 177

转载用R和BioConductor进行基因芯片数据分析(五)：芯片间归一化

上次进行了芯片内的归一化，但是我们的数据来自于10张芯片，为了让这10张芯片之间有可比性，需要进行芯片间归一化。具体原理就不介绍了。这里用到Bioconductor的一个package，叫做limma，以及其中的函数normalizeBetweenArrays()由于normalizeBetweenArrays()需要log intensity或log...

2013-11-27 09:50:00 432

转载用R和BioConductor进行基因芯片数据分析(六)：差异表达基因

经过一系列的预处理，包括缺失值填充，中位数计算以及归一化，我们的数据终于可以用啦。下面我们就来分析一下new population和old population的个体是否有差异表达基因。判断一个基因是否差异表达有许多方法，最早使用的就是看log ratio的绝对值是否大于2,这种方法早已废弃。下一个想到的也许是t-test，诚然t-test可以统计地判...

2013-11-27 09:48:00 349

空空如也

空空如也