背景
纯计算机出身,无生物学背景(仅普通高中生物知识),本来要做基于mRNA和miRNA组学的癌症分型。一番调研发现生物信息学东西很多。
查了半天,一般建议是linux + R语言 + 统计学知识 + 生物学知识等。
为什么选PyCharm
- 先开始已经准备整linux了,在windows上安装了应用商店的ubuntu,但发现后续教程很多都是用windows上的RStudio。
- 加上自己电脑本身一般,还是有点担心linux能不能hold住。
- 而且我们数据量暂时不大,对linux的需求可能不那么强烈
- 新手入门可能别整那么麻烦吧(安装linux,安装conda,学一大堆),赶紧先上手更好?
- 偶然间发现pycharm提供R语言支持,最终决定用pycharm。
安装配置R
主要参考这个教程如何在 Pycharm 中高效使用 R 语言 (图文详解)
我之前装过pycharm,这次直接装R,基本完全按教程,没啥毛病。除了以下几点:
- 我的电脑上清华的源一直不太稳定,下载R用的中科大的源,很好。
- 教程跑代码的时候,报错如下:
Error in library(ggplot2) (main.R#6): 不存在叫‘ggplot2’这个名字的程辑包
Show stack trace
Install package ‘ggplot2’
只需点最后的Install package 'ggplot2'
即可。
关于R markdown
- Rmarkdown不是必须的,但有点想弄。它不是实时渲染的,需要用如下代码渲染:
library(rmarkdown)
render('input.Rmd')
此时会报一个错:
render(“input.Rmd”)
错误: pandoc version 1.12.3 or higher is required and was not found (see the help page ?rmarkdown::pandoc_available).
参考此文:https://blog.csdn.net/santiagozhang/article/details/105070736
原因是我们用的是pycharm而不是rstudio,Rstudio会子带pandoc;解决方法是安装pandoc(pandoc下载链接), 然后重启pycharm。
关于RGUI
- 起初我看到很多教程里都有RGUI,但我搜索结果如下,并没有找到RGUI,最后发现这个点开就是RGUI了:
关于R语言教程
接下来懒得找教程了,就看菜鸟教程挺好:
https://www.runoob.com/r/r-basic-syntax.html
关于中文支持
- 菜鸟教程里有一个:
> cat(1, "加", 1, "等于", 2, '\n')
1 加 1 等于 2
但我实测会报错:
Error in (function (file = “”, n = NULL, text = NULL, prompt = “?”, : invalid multibyte character in parser at line 1
实测发现是对汉语的支持不够,把汉字改成别的即可。发现如果用RGUI则无此问题,可以支持汉字。暂未找到解决办法(并没有详细找)
后续工作
- R语言入门:后续准备继续看菜鸟的R语言入门教程(有其他语言基础的话,略看即可,到时候用到再查)
- 统计学方法:之后看其他论文里用了哪些统计学方法来弄一下数据?观察出一些先验的结论?学习这些统计学方法的原理和R语言实现。
- 聚类:接着就是聚类,kmeans起步,后面再看咋弄。
- 分类:最后的最后,如果确定类是这样聚了,咱再弄分类。
后面这些都要结合生物学知识了
回望
- Pycharm对R的支持可能有点问题,在不确定到底是什么的触发机制下,可能会出现很简单的代码一跑就卡住,但任务管理器各方面都看不出什么异常(同样的代码上次跑很快就出了结果,这次就一直卡在这里)。后期可能考虑换RStudio,因为听说它并不大(跟Visual Studio,PyCharm之类的比)
- R语言的入门光看菜鸟可能有点不是很够,尤其是数据类型啥的真的得看,可以补充一下:
- https://zhuanlan.zhihu.com/p/62275099
比如这几个我粗略一看就发现挺重要,没标量的是我还没看不一定不重要:
- https://zhuanlan.zhihu.com/p/62275099
后续
Pycharm比较慢,经常莫名其妙卡住。
已转RStudio,在一些方面可能确实不如pycharm丝滑/符合习惯,
但真的很快啊!!!!也不卡啊!!!!
RStudio yyds