Dzfly..-CSDN博客

写在前面——之前写的RNA-seq（一到四）是根据别人文章中提到的数据进行一系列分析的，但是找公司做的单细胞测序，一般不需要自己进行数据清洗之类的操作，公司会直接给个clean_data，以及所有的你需要的文件，或者一个云系统的账号。所以我们最终要做的就是根据这些数据，来绘制达到文章发表级别的图，来说明我们实验想表达的事情。

2022-09-11 20:25:19 5612 3

原创 RNA-seq——四、根据序列比对结果筛选差异基因

写在前面——经过前面的一系列分析，我们得到了几个counts数据，接下来就需要根据这些数据来进行分析。本文使用Rstudio，从序列比对结果中筛选出差异基因，目的是（根据不同基因的表达量）找出实验组与对照组的差异。本文使用的数据见。

2022-09-11 19:09:19 2863

原创 RNA-seq——上游分析练习（数据下载+hisat2+samtools+htseq-count）

写在前面——之前使用的数据是单端测序，但是现在的数据基本都是双端测序。所以又找了个双端测序的例子来练习。之前在单端测序数据中，因为参考基因组注释文件找的不对，所以reads计数没有做好。这次数据质量不错，所以省略了质控和清洗，直接进入主题。由于租的服务器是2核＋8G的，所以在生成sam文件和sort以及htseq-count都花费了大量的时间（四个样本集整整跑了将近一整天）。不过最后结果算是复现出来了，甚是欣慰。

2022-08-25 17:32:40 1721

原创 RNA-seq——三、使用Hisat2进行序列比对

Jimmy老师主要演示了四种比对工具，分别为hisat2、subjunc、bowtie2、bwa。除了subjunc能够直接生成bam文件外，这些软件的用法都很相似。需要根据自己的需求来选择对应的软件。这里以使用hisat2为例。

2022-08-22 19:43:44 3035

原创 RNA-seq——二、sra数据下载、fastqc与质量控制

sra数据下载、fastqc、multiqc、质量控制

2022-08-21 18:24:51 1734

原创 RNA-seq——一、Linux软件安装

在安装软件时，优先考虑conda安装。conda使用起来不仅方便快捷，而且能够帮助管理软件。当遇到conda安装不了的软件时，可以使用wget进行安装。都安装不了的话，就需要找到软件官网，看看是不是缺少依赖的环境或者软件已经停止维护了。总而言之，软件对应的官网很重要。

2022-08-19 17:28:40 1708

原创 RNA-seq——快速下载SRA数据、解决fq文件中测序质量全为 ‘?‘ 的问题

写在前面——在学习RNA-seq时，需要从网上下载公开数据集来上手分析，大部分教程都很古老，其中在ncbi中ftp的下载链接已经不存在了，甚至可以直接下载fastq文件。但是，直接下载的fastq文件做fastqc之后结果为一条直线，因为文件里的测序质量都是30，要想下载带正常质量数据的文件需要换一种方法。

2022-08-19 10:42:49 2042

原创 python学习——tsv文件批量转为csv文件、csv文件列合并

写在前面——近日在处理数据的时候发现有的文件为csv文件，有的为tsv文件，大概搜了一下了解到：TSV是用制表符（‘\t’）作为字段值的分隔符；CSV是用半角逗号（‘,’）作为字段值的分隔符。https://www.jianshu.com/p/6e1c3e9f5e42所以我需要把格式统一，把tsv转化为csv，还需要在最后一列加上label。代码是自己东拼西凑的，如有错误，请指出，谢谢大家~import pandas as pdimport os# 原始文件位置source_path = ".

2022-05-18 20:32:04 1980 2

原创机器学习——基于python的鸢尾花SVM练习（包含超参数批量筛选、交叉验证）

基于python的鸢尾花SVM练习，包含超参数的批量筛选，重复交叉验证。

2022-04-01 17:37:38 5914 1

原创机器学习——基于R的svm练习

步骤1. 数据预处理2. 建模1. linear2. polynomial3. radial basis4. sigmoid3. 模型选择4. 特征选择5. 完整代码本文参考：《精通机器学习：基于R》5.3节数据集来自R包（MASS），包含了532位女性的信息，存储在两个数据框中，具体变量表述如下：npreg：怀孕次数glu：血糖浓度，由口服葡萄糖耐量测试给出bp：舒张压skin：三头肌皮褶厚度bmi：身体质量指数ped：糖尿病家族影响因素age：年龄type：是否患有糖尿病（y

2022-03-22 18:53:06 5057 2

原创 B代表哪一种氨基酸？B和b代表的氨基酸一样吗？

今天在看蛋白质的时候发现了一条这样的序列KWKLFKKIEKVGQNIRDGIIKAGPAVAVVGQATQIAKb看到结尾有个小写的b，感觉很陌生。一般氨基酸不都是用大写字母来表示吗？而且貌似也没见过大写的B表示的氨基酸。查查资料~嗯，确实没有B！但是论文里面总不能是错的吧！再查查资料~除此之外，还有一些三字母或单字母符号可用来表示未明确定义的缩写：Asx、B可代表天冬氨酸（Asp、D）或天冬酰胺（Asn、N）。Glx、Z可代表谷氨酸（Glu、E）或谷氨酰胺（Gln、Q）。Xle、

2022-02-22 16:00:21 2581 1

原创生信学习——GEO数据挖掘

步骤STEP1：表达矩阵ID转换STEP2：差异分析STEP3：KEGG数据库注释完整代码写在前面——按照生信技能树的学习路线，学完R语言就该学习GEO数据挖掘了。有人说GEO数据挖掘可以快速发文（https://zhuanlan.zhihu.com/p/36303146），不知道靠不靠谱。反正学一学总没有坏处。看完Jimmy老师的视频，写一篇总结方便日后复习。这里有很多操作在《生信人的20个R语言习题》都可以见到，那里写的更加详细。视频教程：https://www.bilibili.com/vide

2021-12-15 14:17:24 6847 2

原创 R语言学习——by函数的一些理解

在做GEO数据挖掘时，有一步操作是整合表达矩阵，即多个探针对应一个基因的情况下，只保留在所有样本里面平均表达量最大的那个探针。tmp <- by(exprSet,ids$symbol, function(x) rownames(x)[which.max(rowMeans(x))])一开始不是很理解，所以去找了by函数的例子，如下。类比了一下可以看出：这个操作首先是根据symbol对exprSet进行分类；然后对同一类数据计算其行平均值；最后找出平均值最大的行，取其行名。

2021-12-07 20:05:22 4135

原创生信学习——R语言学习总结

写在前面——经过了四十天断断续续的学习，算是对R语言有了初步的了解。其实使用R语言，无非就是对数据进行处理分析，然后把结果可视化。但是数据的千变万化，还有数以万计的函数、数据格式，使得这个过程变得很复杂。无他，唯手熟尔。本篇文章是为了梳理一下学习路线，方便日后复习补充。生信学习——R语言练习题-初级（附详细答案解读）学习了Rstudio的使用，数据格式，数据合并，简单绘图。记得多使用str() class() dim()等函数来查看数据的信息，多使用 ?+函数来查看相应函数的帮助文档。生

2021-09-08 19:25:13 1938

原创生信学习——基于R的可视化习题30个（附详细答案解读）

题目目录一、基础绘图1. 对RNAseq_expr的每一列绘制boxplot图2. 对RNAseq_expr的每一列绘制density图3. 对RNAseq_expr的每一列绘制条形图4. 对RNAseq_expr的每一列取log2后重新绘制boxplot图，density图和条形图5. 对Q4的3个图里面添加 trt 和 untrt 组颜色区分开来6. 对RNAseq_expr的前两列画散点图并且计算线性回归方程7. 对RNAseq_expr的所有列两两之间计算相关系数，并且热图可视化8. 取RNAseq

2021-09-08 17:48:54 2028

原创生信学习——基于R的统计习题（附详细答案解读）

题目目录基础概念1. 载入R中自带的数据集 iris，指出其每列是定性还是定量数据2. 对数据集 iris的所有定量数据列计算集中趋势指标：众数、分位数和平均数3. 对数据集 iris的所有定性数据列计算水平及频次4. 对数据集 iris的所有定量数据列计算离散趋势指标：方差和标准差等5. 计算数据集 iris的前两列变量的相关性，提示cor函数可以选择3种methods6. 对数据集 iris的所有定量数据列内部z-score标准化，并计算标准化后每列的平均值和标准差7. 计算列内部zcore标准化后 i

2021-09-03 22:22:15 3993 1

原创生信学习——生信人的20个R语言习题（下）（附详细答案解读）

题目目录12. 理解统计学指标mean,median,max,min,sd,var,mad并计算出每个基因在所有样本的这些统计学指标，最后按照mad值排序，取top 50 mad值的基因，得到列表。13. 根据第12步骤得到top 50 mad值的基因列表来取表达矩阵的子集，并且热图可视化子表达矩阵。试试看其它5种热图的包的不同效果。14. 取不同统计学指标mean,median,max,mean,sd,var,mad的各top50基因列表，使用UpSetR包来看他们之间的overlap情况。15. 在第二

2021-08-18 11:21:58 2426

原创生信学习——生信人的20个R语言习题（上）（附详细答案解读）

题目目录1. 安装一些R包。2. 了解ExpressionSet对象，比如CLL包里面就有data(sCLLex)，找到它包含的元素，提取其表达矩阵(使用exprs函数)，查看其大小。3. 了解 str,head,help函数，作用于第二步提取到的表达矩阵。4. 安装并了解hgu95av2.db包，看看ls("package:hgu95av2.db")后显示的那些变量。5. 理解head(toTable(hgu95av2SYMBOL))的用法，找到 TP53 基因对应的探针ID。6. 理解探针与基因的对应关

2021-08-18 11:09:24 3954 3

原创生信学习——R语言小作业-中级（附详细答案解读）

题目目录1. 请根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)。2. 根据R包hgu133a.db找到下面探针对应的基因名(symbol)。3. 找到R包CLL内置的数据集的表达矩阵里面的TP53基因的表达量，并且绘制在 progres.-stable分组的boxplot图。想想如何通过 ggpubr 进行美化。4. 找到BRCA1基因在TCGA数据库的乳腺癌数据集([Breast Invasive Carcinoma (TCGA, PanCancer Atl

2021-08-11 18:10:08 2666 1

原创 install.packages(“hgu133a.db“)报错——解决办法

问题描述install.packages("hgu133a.db")WARNING: Rtools is required to build R packages but is not currently installed. Please download and install the appropriate version of Rtools before proceeding:https://cran.rstudio.com/bin/windows/Rtools/Warning in i

2021-08-04 10:52:21 4285 1

原创生信学习——R语言练习题-初级（附详细答案解读）

题目目录1. 打开 Rstudio 告诉我它的工作目录。2. 新建6个向量，基于不同的数据类型。（重点是字符串，数值，逻辑值）3. 告诉我在你打开的rstudio里面 getwd() 代码运行后返回的是什么？4. 新建一些数据结构，比如矩阵，数组，数据框，列表等重点是数据框，矩阵）5. 在你新建的数据框进行切片操作，比如首先取第1，3行，然后取第4，6列6. 使用data函数来加载R内置数据集，找到rivers的描述。7. 下载 [https://www.ncbi.nlm.nih.gov/sra?term

2021-07-31 22:59:34 10153 2

原创生信学习——sam和bam格式文件的shell小练习（附详细答案解读）

题目目录准备练习文件1. 统计共多少条reads(pair-end reads这里算一条)参与了比对参考基因组2. 统计共有多少种比对的类型(即第二列数值有多少种)及其分布。3. 筛选出比对失败的reads，看看序列特征。4. 比对失败的reads区分成单端失败和双端失败情况，并且拿到序列ID5. 筛选出比对质量值大于30的情况（看第5列）6. 筛选出比对成功，但是并不是完全匹配的序列（看第6列）7. 筛选出inset size长度大于1250bp的 pair-end reads8. 统计参考基因组上面各条

2021-07-15 16:09:41 1914 2

原创生信学习——fasta和fastq格式文件的shell小练习（附详细答案解读）

题目目录1. 统计**reads_1.fq** 文件中共有多少条序列信息2. 输出所有的**reads_1.fq**文件中的标识符(即以@开头的那一行)3. 输出**reads_1.fq**文件中的所有序列信息(即每个序列的第二行)4. 输出以‘+’及其后面的描述信息(即每个序列的第三行)5. 输出质量值信息(即每个序列的第四行)6. 计算**reads_1.fq** 文件**含有N碱基**的**reads个数**7. 统计文件中**reads_1.fq**文件里面的序列的**碱基总数**8. 计算**r

2021-07-09 23:41:49 3044

原创生信学习——Linux必做20题（附详细答案解读）

题目列表1. 在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。2. 在创建好的文件夹(/home/qiime2/Desktop/test/1/2/3/4/5/6/7/8/9)下创建文本文件 me.txt3. 在文本文件 me.txt 里面输入内容:4. 删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt5. 在任意文件夹下面创建 folder_1~5这5个文件夹，然后每个文件夹下面再创建 folder_1~5这5个文件夹6. 在第5题创建的每一

2021-07-07 11:35:09 2221 3

卷积神经网络.pdf

paddle重写房价预测模型源码

空空如也