自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

自由 平等~忠诚 奉献

生物信息工程师

  • 博客(132)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 python lxml包学习笔记

python lxml包用于解析XML和html文件,可以使用xpath和css定位元素,个人认为相对于BeautifulSoup功能更加强大,更加灵活。本文根据lxml官方文档和自己的理解列出常用的函数, 本文代码为python3.4, lxml2.0 lxml:http://lxml.de/ 支持:python2 python3解析XML, 以pubmed文献数据库文本解析为例导

2015-12-31 16:05:55 19419

原创 R语言sem包实现通径分析

结构方程模型(Structural Equation Modeling,SEM)是一种建立、估计和检验因果关系模型的方法。模型中既包含有可观测的显在变量,也可能包含无法直接观测的潜在变量。结构方程模型可以替代多重回归、通径分析、因子分析、协方差分析等方法,清晰分析单项指标对总体的作用和单项指标间的相互关系。本文主要应用R语言的sem包实现通径分析. 如当自变量数目比较多,且自变量间相互关系比较复

2015-11-09 10:18:09 27759 11

原创 python学习笔记

修改编码方式,适用于 2.7#! /usr/bin/env python # -*- coding: utf-8 -*- import sys reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入 sys.setdefaultencoding('utf-8') 以下为python 3.4版本数据库导出csvi

2015-10-22 15:58:34 3710

转载 mac mysql 插入中文乱码

参考 http://www.cnblogs.com/Logen/p/3562215.html一、场景呈现  Mac 下Eclipse+mysql开发j2ee的时候,在页面像数据库中插入中文数据的时候,数据库会报错。而且即使插入成功,在控制台或者其他可视化数据库操作软件看数据发现都是??,错误的原因是数据库的编码问题。  二、问题解决方案  假设下文是对mysql基本

2015-10-02 18:08:48 3739

原创 R语言 并行处理

具体的不懂,只记录实现parallel packageR自带的包,可以实现并行处理。library(parallel)detectCores(logical = F) #获得实际核数cl <- makeCluster(getOption("cl.cores", 4)) # 设置并行核数为4clusterExport(cl=cl, varlist=c("text.var", "ntv", "

2015-06-17 18:12:58 12918

原创 R语言神器

R pacakgedplyr数据处理神器, plyr的升级版,主要用于数据框,可以实现与数据库的快速交互。data.table读取文件,处理数据,速度比python,dplyr还要快。 就是语法上有些凌乱。reshape2, tidyr揉数据的法宝,将数据以不同的形式展现,列数由多变少, tidyr 是 reshape2 的升级版,主要用于数据框。readr2015-04-09 readr 发布,同

2015-06-17 18:10:54 15001

原创 R语言与统计笔记

正态性检验Shapiro-Wilk Normality Test样本量在3-5000时使用 shapiro.test(x) x a numeric vector of data values. Missing values are allowed, but the number of non-missing values must be between 3 and 5000.## ## shp

2015-06-17 18:09:38 5727

原创 R语言常用函数集合

meltmelt(data, id.vars, measure.vars, variable.name = "variable", ..., na.rm = FALSE, value.name = "value", factorsAsStrings = TRUE)id.vars 表示固定不变的列 measure.vars 控制变量,需要处理的列,将这些列名作为某一列的数值 variabl

2015-06-17 18:08:05 14578

原创 XML包使用

最近更新请参照 http://cangfengzhe.github.comhtmlParse(url)解析网页,或XMLxml 转换成data.frame“`r library(XML) library(plyr) url_path_pre <- ‘http://www.rcsb.org/pdb/rest/describePDB?structureId=4hhb,1hhb’ query

2015-06-17 18:05:57 2567

原创 ggplot2 学习

theme(axis.text.x=element_text(angle=90, size=8, vjust=0.8)) 旋转x轴标题theme(plot.margin = unit(c(0.1, 0, 0, 0),"cm")) 为图片设置margin, 顺序遵循 上右下左library(gridExtra)grid.arrange(g1, g2, g3, g4, main, sub, lef

2015-06-17 18:01:20 4211

原创 mysql 学习总结

mysql 查询结果建立新表create table table_name select * from tab1;txt导入mysqlload data infile ‘D:\DeskTop\abc.txt’ into table tab2 fields terminated by ‘;’

2015-06-17 17:56:09 4391 1

原创 利用R语言对RNA-Seq进行探索分析与差异表达分析

介绍本文参考 bioconductor 中RNA-Seq workflow: gene-level exploratory analysis and differential expression并对其根据需要进行了增减。 更多细节还请参考 http://www.bioconductor.org/help/workflows/rnaseqGene/试验数据数据来源 Himes BE, Ji

2015-06-17 17:51:48 49318 1

大型机(HPC)构建 hadoop

大型机(HPC)构建 hadoop 强烈推荐

2014-10-30

决策树分析

决策树学习资料,我用过的最好的东西,分享给大家

2014-10-30

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除