数据处理 dataframe tibble 数据清洗
文章平均质量分 67
生信小博士
本人声明2024年之前的内容非本人原创,仅作为记录本人的学习过程的一个平台,当时声明原创是由于平台自动默认,刚使用这个平台不太清楚,现在很多文章找不到原文链接,批量修改过于复杂,如有内容不适合发表在本博客上,对您造成影响,请及时联系我删除该内容或在文章下方声明是您的原创,不甚感激。2024年的内容为本人原创如有兴趣,可关注了解。
展开
-
scwgcna官网教程中英文实战高维wgcna分析 单细胞wgcna分析
一文掌握单细胞wgcna分析hdWGCNA in single-cell data • hdWGCNA (smorabit.github.io)R: Find consensus modules across several datasets.原创 2023-01-18 00:15:26 · 320 阅读 · 0 评论 -
IPF gse70866 ipf phe 整合好的meta信息表达矩阵做lasso回归 缩减变量
【代码】IPF gse70866 ipf phe 整合好的meta信息表达矩阵做lasso回归 缩减变量。原创 2022-12-13 00:29:51 · 159 阅读 · 0 评论 -
Latent Class Modeling lca
它与传统因素分析最大的不同在于变量的形式:因素分析处理的是连续变量,潜在类别模型处理的是类别变量。潜在类别分析是潜在变量分析的一种,是将潜在变量理论与分类变量相结合的一种统计分析技术,是探讨存在统计学关联的分类外显变量背后的类别潜在变量的技术。潜在变量分析与潜在类别分析都是研究潜在变量与外显变量关系的手段,区别在于分析变量的类型,潜在类别分析是潜在变量分析的一种特殊情况。一个潜在变量往往对应着多个外显变量,可以看作是对应的多个外显变量的抽象和概括,外显变量则可视为特定潜在变量的反映指标。原创 2022-12-09 20:18:24 · 1154 阅读 · 0 评论 -
excel根据颜色赋值 Excel填充颜色单元格替换成数字 excel把所有红色变成1
案例中,周一到周五产生倒班的,是用橙色标识的。周六周日的倒班是用蓝色标识的。然后,我们要将橙色的单元格替换成数字30,蓝色的单元格替换成数字50,分别代表30元和50元的倒班费。使用快捷键Ctrl+H进入替换对话框界面,然后鼠标左键单击“选项”。“选项”展开后,找到查找对话框对应的“格式”,然后单击其最后侧的倒三角选项,在子选项里找到“从单元格选择格式”选项,并鼠标单击该选项。然后,将鼠标移至表格中我们想要提取颜色的单元格位置,鼠标左键单击该单元格,提取出单元格的颜色。查找选项框中什么都不需要输入,替换对话原创 2022-12-07 10:55:41 · 2840 阅读 · 0 评论 -
PaO2/FiO2在临床中的应用 氧合指数
主任提问:患者呼吸衰竭时的“氧合指数”大约多少?如何计算?_腾讯新闻 (qq.com)在 ARDS 柏林定义中,诊断低氧血症需要 PaO2/FiO2≤ 300 mmHg,并可以分为轻中重三个等级(下表)。 ARDS 患者的 PaO2/FiO2越低,死亡率越高,其中重度 ARDS 死亡率高达 45%。需要注意这里 PaO2/FiO2使用的前提是 PEEP 或 CPAP ≥ 5 cmH2O,也就是说需要患者在机械通气或无创正压通气状态(Why?请看第 5 部分)。对于社区获得性肺炎(CAP),IDSA/ATS原创 2022-12-07 00:56:46 · 982 阅读 · 0 评论 -
单细胞加p值 显著性 chb单细胞
p值原创 2022-12-06 16:30:11 · 715 阅读 · 0 评论 -
第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容 rna-seq上游Linux
第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析_YoungLeelight的博客-CSDN博客 01-rna-seq从头开始 卖萌哥 Linux生信技能树Linux安装软件 Linux实战RNASEQ上游_YoungLeelight的博客-CSDN博客 下载公共测序数据的另一种姿势(kingfisher) - 简书 生物信息常见文件的格式以及查看方式 sra fastq.gz sam/bam 比对 定量 高速快速下载基因组ref文件查看文件下载是否完整md5值 md5sum检查原创 2022-12-04 23:20:31 · 1681 阅读 · 0 评论 -
01-rna-seq从头开始 卖萌哥 Linux生信技能树Linux安装软件 Linux实战RNASEQ上游
1,首先构建所需目录,这样比较哦清晰2。给注释信息和参考基因组解压缩,去掉gzcd 00ref/gunzip *gz 得到可以用head 查看文件具体 内容3.原始数据上传md5值,因为原始文件 太大,需要检查数据完成性 md5值给每个文件一个独特的id,根据id是否相等来检查文件完整性cd 01raw_data/md5sum *gz>md5.tx...原创 2020-12-24 01:24:15 · 425 阅读 · 0 评论 -
第四次考核 Jimmy 学徒考核 Linux安装软件 rna-seq上游分析 Linux上游 颜色配置 命令行配色 kingfisher
添加命令 export PATH=$PATH:/path/to/bwa-0.7.12/bin # Add bwa to your PATH by editing ~/.bashrc file (or .bash_profile or .profile file) 在全新服务器配置转录组测序数据处理环境 1.2 配置rna转录组环境1.3 下载并且整理数据库文件数据下载也是老规矩,利用prefetch下载SRA数据,准备进行转录组数据分析。在GSE数据集对应网页,点击SRA_R原创 2022-12-04 20:22:30 · 703 阅读 · 0 评论 -
为啥要这个index 建立索引为什么 hisat2
索引(index)是帮助MySQL高效获取数据的数据结构(有效),在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。简而言之:帮助MySQL高效的查询出数据的数据结构叫做索引。索引类似于书籍的目录,提高数据检索的效率,减少数据库IO的成本通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗http://www.biotrainee.com/thread-26-1-1.html--原创 2022-12-04 16:35:09 · 1201 阅读 · 0 评论 -
hisat2 建立索引 序列比对rnaseq上游分析linux
1 HISAT2官网下载人类和小鼠的索引有现成的,HISAT2官网可以直接下载进行序列比对。如下图所示:选择hg19和mm10的index,文章中RNA-Seq测序数据,可以包括人类和小鼠的数据,因此需要小鼠和人类的索引。备注:实际我用迅雷(会员)进行下载,每个用时大概1个多小时。2 自己制作参考代码1 开始比对:用hisat2,得到SAM文件首先启动miniconda3环境先看下hisat2的用法 我的fastq文件在 我的index在 比对后得到的bam文件会存原创 2022-12-04 16:07:18 · 1207 阅读 · 0 评论 -
临床信息去冗余 临床数据处理分组不同的GSE数据集有不同的临床信息,不同的分组技巧临床表型临床信息table 多个信息怎么快速看去掉临床分类变量
最近,我发现学徒在学习GEO数据挖掘的过程中,遇到了第一个也是至关重要的一个难题就是对下载后的数据集进行合适的分组,因为只有对样本进行合适的分组,才有可能得到我们想要的信息。会发现有些信息是冗余的,有些是有效信息可以用来分组,但是表型记录太多,看起来会混淆,所以需要去除那些冗余信息,就是在所有样本里面表型记录都一致的列。总结一下,我们可以根据自己的需求选取合适的代码去进行有效的分组,在不同的情况下选取最合适当下的方法,方便自己去做后续的数据分析。下面看学徒的表演(PS: 图片较多的推文,排版真的是吓死人!原创 2022-12-02 17:10:31 · 1132 阅读 · 0 评论 -
Jimmy老师学徒任务三之R专辑阅读
(欢迎交流指正)序号表示相应的r专辑阅读及实战。106.其实就是如何安装r包的问题,r包安装方法,r包安装报错怎么办,要善于从error里找关键信息,然后去Google 或者github上找原因105.关于临床数据清洗我也喜欢用tidy 和dyplr系类包。注意和正则表达式连用。字符串处理stringr包也很好用或用lapply apply sapply split 批量处理104.生存分析出的图比较诡异,注意使用lapply其实也可以达到批量出图的效果103.原创 2022-11-30 23:31:04 · 205 阅读 · 0 评论 -
到底什么是Lin single lung IMs (Lin−CD45+MerTK+CD64+SiglecF−CD11b+) were collected by FACS into 96-well pl
还是以上面的DC细胞为例,human的DC细胞的表型为Lin-和HLA-DR+,如果我们单纯标记HLA-DR+,实际上有很多细胞,比如T,B等免疫细胞都会存在其阳性的细胞群,这时如果以HLA-DR+为DC亚群当然就不准了。当然,需要大家注意的一点就是,Lin的名字虽然是固定的,但是Lin的内容却千万不是一成不变的哦!比如在做human DC细胞的鉴定时,Lin就是CD3/CD19/CD20/CD14等指标的集合指标,把这些抗体混合在一起,就叫做DC细胞的lin-指标。那么为什么要进行lin-的鉴定的?原创 2022-11-28 16:16:14 · 441 阅读 · 0 评论 -
生存分析的图你也要拼接 图形拼接r 不同的图形组合在一起
因为都是ggplot体系的图表,很容易拼接,但是里面的生存分析是一个麻烦事情。再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成。出图,而这个survminer包出图并不是很稳定,但是学员自己解决了这个问题。你研究的基因凭什么重要(这才是数据挖掘的用武之地)的arrange_ggsurvplots函数对。多种数据结构(向量,矩阵,数组,数据框,列表)多种数据类型(数值,字符,逻辑,因子),感兴趣的可以自己去拼接看看哦!我们这里简单的展示如何用。两个变量都有生存意义。原创 2022-11-16 17:02:44 · 950 阅读 · 0 评论 -
Invalid name supplied, making object name syntactically valid. New object name is Seurat..ProjectDim
see?原创 2022-11-16 16:55:06 · 2673 阅读 · 2 评论 -
实战成功 H5AD加载失败 r里安装python环境 conda miniconda环境
安装conda成功!原创 2022-11-15 00:06:16 · 1964 阅读 · 0 评论 -
快速读取文件r ftable 大文件读取
所以结论就是data.table中的fread包更快一些些啦。原创 2022-11-12 01:32:06 · 284 阅读 · 0 评论 -
readRDS(“./hdgcna/data/hdWGCNA_object.rds“) bad restore file magic number (file may be
RDS原创 2022-11-10 11:12:44 · 469 阅读 · 0 评论 -
scwgcna官网教程中英文实战高维wgcna分析 单细胞wgcna分析
1创建对象,选择基因=tutorial3#标准化:NormalizeMetacells#提取metacell:GetMetacellObject3.1#可选,是否处理metacell 进行可视化4#共表达网络分析。原创 2022-11-10 00:18:01 · 2110 阅读 · 1 评论 -
r运行太慢怎么办
很多人的R语言会卡就是因为这个数字太小了,如果你的电脑是64位的,那就输入memory.limit(102400),把系统分配给R语言的内存使用上限调到100G如果你的电脑是32位的,那就输入memory.limit(4000),把系统分配给R语言的内存使用上限调到4G,因为32位系统只能支持4G内存。原创 2022-11-09 02:06:05 · 4501 阅读 · 3 评论 -
小鼠参考基因组id转换gtf文件chb注释官网下载相应的基因中注释文件gse155802 getmatrixgenecode 参考基因组下载序列比对 hg19 索引文件mapping referece
我想要研究的基因组我怎么知道是这个的呢 ,因为这篇文献里面提到。原创 2022-11-09 00:23:47 · 967 阅读 · 0 评论 -
单细胞流程 安装conda 下载基因组数据 然后走cellranger 流程得到10x数据 学校服务器集群anaconda安装 参考基因组 38 hg19
既然你都要学cellranger了,大概率上你已经有了SRA或者fastq数据,有了服务器,linux知识也有所了解,关于数据的下载我就不赘述了。需要启动已经修改环境变量,输入以下命令(以后都不用再 source 了,因为启动 Ubuntu 会自动 source)确认安装的路径,一般直接回车安装在默认的 /home/你的名字/anaconda3。进入 Ubuntu,自己新建下载路径,输入以下命令开始下载。如果当前安装后,不是最新版本,可以通过以下命令升级。一般来说,软件以及配套的参考基因组都需要下载,原创 2022-11-08 23:04:31 · 1724 阅读 · 0 评论 -
如何获得基因名与基因类型的对应关系——下载GTF文件 基因注释
level1代表可靠的注释信息,有直接的实验证据支持的注释信息;level2代表的是经过人工校对的注释信息,取HAVANA和Ensembl注释信息中一致的注释信息;level3指的是软件注释的信息,通常是Ensemble中和HAVANA不一致的注释信息。对于人和小鼠而言,NCBI, Ensembl等数据库都保存了对应的基因注释信息,不同数据库中的信息来源和可信度都不一样,gencode综合HAVANA和Ensembl 数据库中的信息,通过实验手段加以验证,从而构建一个高质量的注释信息数据库。原创 2022-11-08 11:45:13 · 2583 阅读 · 0 评论 -
聚类 监督聚类 k-means聚类
Wikipedia上的 KNN词条 中有一个比较经典的图如下:KNN的算法过程是是这样的:从上图中我们可以看到,图中的数据集是良好的数据,即都打好了label,一类是蓝色的正方形,一类是红色的三角形,那个绿色的圆形是我们待分类的数据。如果K=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色的这个待分类点属于红色的三角形。如果K=5,那么离绿色点最近的有2个红色三角形和3个蓝色的正方形,这5个点投票,于是绿色的这个待分类点属于蓝色的正方形。原创 2022-11-07 15:24:21 · 1661 阅读 · 0 评论 -
Git 删除 GitHub仓库的文件——详细操作 githua如何删除文件
我们知道,在Github上我们只能删除仓库,并不能删除文件或者文件夹,所以只能用命令来解决。删除完你需要删除的文件和文件夹以后,在终端里提交本次修改 git commit -m 备注"找到github上要删除的仓库地址,并复制,在终端里输入git clone 刷新github仓库 就看见选定删除的文件夹没有了!删除本地仓库文件夹 git rm -r ,是你要删除的文件夹名字。删除本地仓库文件 git rm ,是你要删除的文件名字。文件夹的删除和文件不一样,需要多一个参数,如下。原创 2022-11-07 14:25:36 · 2464 阅读 · 0 评论 -
Error in download.KEGG.Path(species) : ‘species‘ should be one of organisms listed in ‘http://www
【代码】Error in download.KEGG.Path(species) : 'species' should be one of organisms listed in 'http://www。原创 2022-11-04 15:04:16 · 1674 阅读 · 0 评论 -
自己的数据集做富集分析 自定义基因集做富集分析clusterprolifer
minGSSize和maxGSSize:背景基因注释到某个GO的geneset需要在此范围内才会输出该GO的结果。TERM2NAME :df,第一列是term ID,第二列是相应term name。TERM2GENE: df,第一列是term ID(比如GO ID),第二列是mapped gene。,因此结果一模一样。背景注释到GO的geneset太小,会得到很小的p值,但结果可能不具参考性?背景注释到GO的geneset很大,一般p值也会增大。CC结果中,n和N不变,M和k随不同的GO类不同。原创 2022-11-04 14:56:58 · 2426 阅读 · 0 评论 -
去除字符串中空格r语言如何去掉字符串向量里面的空格R 去除所有空格 在R中的最后一个逗号上分割字符串 以最后一个逗号为切割符 r 正则表达式 学习教程资料代码 以最后一个逗号为分隔符 r 去掉多个空格
【代码】在R中的最后一个逗号上分割字符串 以最后一个逗号为切割符 r 正则表达式 学习教程资料代码 以最后一个逗号为分隔符 r。原创 2022-11-04 01:14:21 · 2020 阅读 · 0 评论 -
wgcna 原文复现 小胶质细胞亚群在脑发育时髓鞘形成的作用 microglial
其实我跌跌撞撞学了WGCNA半个月,大概了解了这个原理,现在还一知半解,对很多细节摸索了很久,头很大。如果你仔细的看到了这里,说明你是想学WGCNA的了。这是关键,其实就是开始解读这些关联的基因群对老鼠表型的影响,比如敲除CDC11之后的老鼠,哪些信号通路激活或抑制,EAE的老鼠哪些基因激活?一个是minModuleSize,表示每个模块里面最少放多少个基因,这很好理解,设定越大,模块越少;而我大概深究了一下,控制这个离群值的大概是500个基因,哈哈哈。参考学习了stat的视频,也参考了他提供的代码。原创 2022-11-04 01:00:08 · 855 阅读 · 0 评论 -
Hierarchical 聚类原理
层次聚类(hierarchical clustering)通常和热图(heatmap)密切相关。绘制热图前,通常需要进行数据标准化处理。关于数据标准化处理的内容,改天再补充。原创 2022-11-02 18:41:39 · 291 阅读 · 0 评论 -
wgcna 官网教程II.Consensus analysis of female and male liver expression data
WGCNA教程 官网教程 总结版 代码tutorials 1_YoungLeelight的博客-CSDN博客原创 2022-11-02 17:02:20 · 348 阅读 · 0 评论 -
WGCNA教程 官网教程 总结版 代码tutorials 1
wgcna原创 2022-11-02 15:13:32 · 1019 阅读 · 0 评论 -
批量字符串处理临床数据据清洗 临床表型数据 phenodata phe字符串正则表达是 提取信息 提取想要的字符从excel表格或者数据框dataframe 提取想要的列
【代码】临床数据据清洗 临床表型数据 phenodata phe。原创 2022-11-02 10:41:16 · 230 阅读 · 0 评论 -
利用R语言如何去除字符串中成对的括号 r去掉中括号
【代码】利用R语言如何去除字符串中成对的括号 r去掉中括号。原创 2022-11-02 09:21:36 · 1329 阅读 · 0 评论 -
r语言去除字符串两端多余空格 r去掉字符串两边的空格trimws ards zhongda xiejianfeng临床数据清洗 字符两边的空格类似于 onehot编码格式
【代码】r语言去除字符串两端多余空格 r去掉字符串两边的空格trimws。字符两边的空格原创 2022-11-01 20:26:00 · 719 阅读 · 0 评论 -
r语言去除字符串两端多余空格 r去掉字符串两边的空格trimws
【代码】r语言去除字符串两端多余空格 r去掉字符串两边的空格trimws。原创 2022-11-01 20:20:28 · 1040 阅读 · 0 评论 -
wgcna 实战 jimmy 全流程 全代码
【代码】wgcna 实战 jimmy 全流程 全代码。原创 2022-11-01 00:21:40 · 879 阅读 · 0 评论 -
ards GSE154918 gaochao geo 纯测序数据 step2
【代码】ards GSE154918 gaochao geo 纯测序数据 step2。原创 2022-10-31 23:37:05 · 157 阅读 · 0 评论 -
wgcna jimmy github
官网地址。原创 2022-10-30 17:17:51 · 881 阅读 · 0 评论