red_west-CSDN博客

原创相关性分析

斯皮爾曼等級相關係數：無母數分析(non-parametric analysis)。直接使用資料數值算統計叫parametric方法，把資料排序之後用排序的名次算統計叫non-parametric方法。斯皮爾曼等級相關係數前提假設:無。皮爾森相關係數分析類型:母數分析(parametric analysis)。直接使用資料數值算統計叫parametric方法，把資料排序之後用排序的名次算統計叫non-parametric方法。3.皮爾森相關係數前提假設:兩組變數之資料均為常態...

2020-10-14 09:42:40 247

原创 sratoolkit

执行之前先配置。This sra toolkit installation has not been configured.Before continuing, please run: vdb-config --interactive

2020-08-06 16:23:02 1079

原创 ggplot

https://zhuanlan.zhihu.com/p/29566559

2020-05-05 10:22:50 963

原创 tableone

参考文章：https://cran.r-project.org/web/packages/tableone/vignettes/introduction.htmlstep1. install.packages('tableone')step2.library(tableone) #load 'tableone' packagestep3.f = read.csv('12...

2020-04-14 15:19:02 390

原创 ROC

Setting levels: control = 0, case = 1Setting direction: controls < casesdirection：根据两组数据中位数大小确定；“>”: control组中位数值大于cases组；“<”：control组中位数值小于或等于cases组...

2020-04-08 19:02:33 5061 1

原创缺失值插补方法

2020-04-08 16:34:13 1045

原创多重共线性

1.多重共线性是普遍存在的，轻微的多重共线性问题可不采取措施，如果VIF值大于10说明共线性很严重，这种情况需要处理，如果VIF值在5以下不需要处理，如果VIF介于5~10之间视情况而定。2.如果模型仅用于预测，则只要拟合程度好，可不处理多重共线性问题，存在多重共线性的模型用于预测时，往往不影响预测结果。...

2020-04-02 16:16:45 1241

原创 glm

广义线性模型：包括lasso, ridge,elastic net 。glmnet 只能接受数值矩阵作为模型输入，如果自变量中有离散变量的话，#需要把这一列离散变量转化为几列只含有 0 和 1 的向量，这个过程叫做 One Hot Encoding。...

2020-03-31 09:05:02 206

原创 lefse分析

LEfSe（LDA Effect Size）分析，可以用于两个或多个分组之间的比较，从而找到组间有显著性差异的物种（即 biomarker），分析步骤主要分为三步：Step1：利用 Kruskal-Wallis 秩和检验检测所有的特征物种，通过检测不同组间的物种丰度差异，获得显著性差异物种。Step2：再利用 Wilcoxon 秩和检验检测上步获得的显著性差异物种的所有亚种是否都趋同...

2020-03-24 16:49:45 6644

原创 logistic regression

> mydata <- read.csv("binary.csv")> head(mydata) admit gre gpa rank1 0 380 3.61 32 1 660 3.67 33 1 800 4.00 14 1 640 3.19 45 0 520 2.93 46 1 ...

2020-03-23 12:39:47 386

原创 logit regression

> CarData = read.table('car.data',sep=',',col.names=c('buying','maintenance','doors','persons','lug_boot','safety','rating'))> summary(CarData) buying maintenance doors persons ...

2020-03-20 13:31:42 126

原创随机森林

在这里，我调整了要随ntree增长的树的数量（标准值为500）。变量mtry指定将选择多少个随机特征来生长一棵树。在这里，我选择mtry = 3，这意味着每次树木生长时，将随机选择集合{Sex，Pclass，Parch，SibSp，Embarked}中的三个特征。如果输入：...

2020-03-20 11:11:20 187

原创哑变量处理

可以看到，该结果和model.matrix稍有区别，生成了四个虚拟变量。要注意，为了避免多重共线性，对于level=n的分类变量只需选取其任意n-1个虚拟变量。

2020-03-18 16:57:11 1348

原创 caret包

1.标准化preProcess()，会自动忽略非数值型2.哑变量处理dummVars()，自动生成新的哑变量

2020-03-18 15:34:46 219

原创独立危险因素

所危险因素和保护因素是相对的，比如说肥胖与否对于II型糖尿病，肥胖相对于正常是危险因素，那么正常对于肥胖就是保护因素独立危险因素是控制其他变量后，该结果还有统计学意义，再结合实际的情况做出的解释，统计学上的有意义不一定代表实际也有意义。在做Logistic回归分析时，OR大于1称为危险因素，小于1称为保护因素。...

2020-03-18 13:38:55 6850

原创 Metagenomics Biomarkers Selected for Prediction of Three Different Diseases in Chinese Population

材料：3种疾病，糖尿病、肝、关节炎。四分类方法：1.数据处理：相对丰度矩阵；2.特征选择：最大相关最小冗余3.建模：7种（机器学习效果最好）4.评估：AUC结果：筛了300个biomarker...

2020-03-18 11:18:17 175

原创特征缩放的适用范围

参考：https://medium.com/greyatom/why-how-and-when-to-scale-your-features-4b30ab09db5e具有欧几里德距离度量的k个近邻对幅度敏感，因此应按比例缩放所有要素以均等地加权。在执行主成分分析（PCA）时，缩放至关重要。PCA尝试获取具有最大方差的特征，而对于高强度特征，方差很高。这会使PCA偏向高强度特征。我...

2020-03-17 16:25:52 248

原创 t检验

前提：正态性假设检验1.画QQplotlibrary(car)#QQ-plotqqPlot(lm(value~group,data=richness_12),simulate=TRUE,main='QQPlot',labels=FALSE)2.Shapiro-Wilk检验我们还可使用Shapiro-Wilk检验验证数据分布的正态性，它类似于线性...

2020-03-12 16:12:17 229

原创 excel合并列

=A1&"-"&B1 #按-分隔符合并https://jingyan.baidu.com/article/ad310e80e4eddd1848f49e53.html

2020-03-09 17:10:05 151

原创 pheatmap in R

# 对数转换# +1是为了防止对0取对数；是加1还是加个更小的值取决于数据的分布。# 加的值一般认为是检测的低阈值，低于这个值的数字之间的差异可以忽略。data_log <- log2(data+1)Z-score又称为标准分数，是一组数中的每个数减去这一组数的平均值再除以这一组数的标准差，代表的是原始分数距离原始平均值的距离，以标准差为单位。可以对不同分布的各原始分数进行比...

2020-03-09 16:19:45 337

原创 centos7安装HFE算法

参考文章：https://fracpete.github.io/python-weka-wrapper/install.html需要将JDK写到环境变量里面去安装步骤如网站所示。除此以外：在javabridge安装时报错，需要在之前再安装一个Cython。再安装python-weka-wrapper即可。...

2020-03-09 12:51:02 106

原创 t检验，卡方检验，方差分析与单因素回归分析等价

详见链接https://www.mediecogroup.com/method_topic_article_detail/158/

2020-03-05 16:40:41 1902

原创 lasso回归和ridge回归

LASSO回归复杂度调整的程度由参数λ来控制，λ越大对变量较多的线性模型的惩罚力度就越大，从而最终获得一个变量较少的模型。λ越大，变量越少。

2020-03-05 11:41:29 1747

原创卡方检验chiq.test()

数据类型：因子型变量（患/不患肺癌，吸/不吸烟）患肺癌不患肺癌合计吸烟 60 32 92 未吸烟 3 11 14 合计 63 43 106 目的：研究吸烟是否与肺癌有关代码：x = c(60, 3, 32, 11)dim(x) =c(2, 2)chisq.test(x, ...

2020-03-05 10:54:52 1229

原创如何更新Rstudio

install.packages('installr')library(installr)updateR()#没能更新，不知道哪里出了问题，可能是网络原因

2019-08-11 21:55:06 8340 1

原创 python-037

0. 继承性1. 对象2. 默认自己？3. __（在变量或者函数名前）4. __init__5. 没有默认的参数?#-----定义一个游乐园门票的类-----#class Ticket: workday_ticket = 100 weekend_ticket = 1.2 * workday_ticket def workday

2017-11-12 18:38:47 108

原创 python-035

0. 变量和函数1. emmmm，包含关系?2. 机器猫?3. 长宽4. 具体?5. 封装:看不到继承：你有我也有多态：多法多效6. 现在还没发现2.0class Person: name = '小甲鱼' def name1(self): print(self.name)#-------矩形类实例对象-

2017-11-12 16:37:21 111

原创 python-028

0.A1.只读2.不懂3.关闭之后缓存的内容才会存入文件中4.将文件转化为列表list(f)5.for each_line in f:print(each_line)6.读取10个字符长度7.f.tell8.不懂

2017-10-17 20:46:04 205

原创 python-027

0.集合中的元素唯一1.frozenset()2.len()计算3.报错4.不一样5.报错6.set.add()set.remove()

2017-10-17 17:31:04 137

原创 python-026

0.不支持1.报错2.序列检查，检查字典只能检查键，不能检查值3.没有4.1：‘数字’,3：‘数字’5.dict2 = dict1动动手：0.#-------利用字典编写登录程序------#contacts = dict()while 1: print('|---新建用户:N/n---|') print('|--

2017-10-17 09:45:14 125

原创 python-025

0.python中的字典1.dict1 = {'F':70, 'C':67, 'h':104, 'i':105, 's':115>>> dict1['C']2.不对，字典是映射3.emmmm4.一样的，全都是字典a是字典 //不懂5.data = '1000, 小甲鱼, 男'MyDict = {}(MyDict['id'], MyDict['na

2017-10-15 20:46:16 133

red_west的博客