- 博客(61)
- 收藏
- 关注
原创 流感病毒RNA与宿主mRNA融合,产融合蛋白质
原来的观点流感病毒在宿主细胞中,通过掠夺宿主细胞mRNA的5'-Cap,从而欺骗宿主的翻译系统,最终实现病毒蛋白的合成。文章新的发现流感病毒在掠夺5‘-Cap的时候,也有可能将宿主 mRNA 5’端的一段序列一并掠夺并融合在一起。翻译后,就产生了一个融合的蛋白质。1.Hybrid Gene Origination Creates Human-Virus Chimeric Proteins during Infection2.病毒基因竟会和人类基因融合到一起,产生...
2020-09-23 12:30:14
566
转载 生信在线工具(转载)
Web服务器名称 网址 简要描述;简介 agriGO v2 http://systemsbiology.cau.edu.cn/agriGOv2/ GO分析农业物种 AMMOS2 http://drugmod.rpbs.univ-paris-diderot.fr/ammosHome.php 能量最小化蛋白质 - 配体复合物 antiSMASH http://antismash.secondarymetabolites.org/ 细菌和真菌基因组中的次
2020-09-21 18:53:29
17534
转载 bcftools: 为 vcf 文件建索引及合并 vcf 文件 (转载)
bcftools 为 vcf 文件建索引及合并 vcf 文件1. bgzip 压缩 vcf 文件为 gz 文件bgzip -c T8_B8_TN_20171226190133_TN_haplotyper.vcf >T8_B8_TN_20171226190133_TN_haplotyper.vcf.gzbgzip -c T9_B9_TN_20171226195650_TN_haplotyper.vcf >T9_B9_TN_20171226195650_TN_haplotyper.vcf.gz
2020-09-20 15:18:37
7605
转载 基因组学中的深度学习 (转载)
转载说明:本文转载至 ‘碱基矿工’ 公众号这一篇文章的主题是深度学习在基因组学中的应用情况的。文章较长,读完要花些时间,不过我的建议是通读第一部分——关于如何进行模型训练的内容,读完后你应该可以理解机器学习模型的训练过程和逻辑,剩下的部分可以挑重点的看。START基因组学其实是一门将数据驱动作为主要研究手段的学科,机器学习方法和统计学方法在基因组学中的应用一直都比较广泛。不过现在多组学数据进一步激增——这个从目前逐渐增多的各类大规模人群基因组项目上可以看出来,这其实带来了新的挑战——就是数据挖
2020-09-20 11:51:52
3262
原创 Python:给定行号,通过 linecache 模块 读取文件
如果想根据给定的行号,读取文件的某一行或多行,则可以通过Python的自带模块linecache实现。例如,有一个名为test.txt的文件,内容为:这是第1行这是第2行这是第3行这是第4行这是第5行这是第6行这是第7行这是第8行提取第5行:import linecachelinecache("test.txt", 5)输出结果为:这是第5行如果想要提取5、6、7、8行,可以使用循环遍历。for i in [5,6,7,8]: print(linecach
2020-09-18 12:56:56
594
1
原创 Linux:awk指定输入和输出分隔符
awk默认的分隔符为空格和tab。然而,实践中往往需要指定其它符号作为分隔符。输入分隔符输出分隔符参考资料awk从放弃到入门(2):awk分隔符
2020-09-15 20:18:23
87183
原创 Linux:结合cat和EOF输出到文本文件
EOF:即“end of file”的简写Linux实践中,往往需要将shell脚本中的多行内容,输出到一个文本文件中。例如输出一段内容,作为一个新的脚本。举例如下:cat > test.sh <<EOFthis is a testthis is another testthis is final testEOF语法说明在上面的例子中,为了便于理解,代码需要从后向前看:(1)在代码中出现了两次EOF,它是一种标记,目的是告诉Linux:它们中间的所有内容是需要输出到
2020-09-14 19:18:49
3997
原创 Linux:while循环逐行读入和awk分隔
通过while read line语句,逐行读取文本文件,并赋值给变量line。例如,有一个名为test.txt,内容如下的文件:#查看 test.txt 文件内容cat test.txtSJALL018369_D1 adfad dfadfadfaSJALL018369_R1 1234 dfadfafdSJALL018371_D1 dfjajfdklajf 09090hiojdoSJALL018373_D1 nnnnndaddasf 1243356476543
2020-09-14 18:48:34
2954
原创 pandas:使用concat函数合并数据集
使用concat函数合并数据集通过列表的形式,将需要合并的数据集作为第一个参数传入。数据集合并默认是按照第0个数轴合并,此时根据column索引值将对应的数据合并。没有的值则用NaN代替。可以通过参数axis参数指定按照哪个数轴进行合并。import numpy as npimport pandas as pdarr = np.random.randint(10,size=(3,4))df1 = pd.DataFrame(arr, columns=["A", "B", "C", "D"])d
2020-09-09 21:59:40
718
原创 Pandas 数据操作实践总结
Pandas 数据的选择相比于Numpy的矩阵,Pandas的数据对象多了自定义的索引。因此,在对Pandas数据选择时,更推荐使用loc和iloc两种方法。import numpy as npimport pandas as pd首先,读取一个用于测试的数据。test = pd.read_excel("../table.xlsx", sheet_name="Sheet2", index_col=0)test sample1 sam
2020-09-08 19:55:30
1431
原创 Pandas的DataFrame对象的基本属性
Pandas的DataFrame对象的基本属性import numpy as npimport pandas as pdtest = pd.read_csv("../table.csv", header=0, index_col=0)test A B C D gene1 1 2 3 4 ge
2020-09-08 19:32:58
1674
原创 Pandas读取excel、table、CSV格式的数据
Pandas读取excel、table、CSV格式的数据此外,Pandas还可以读取hdf、json、html、spass、sql等格式的数据文件。import numpy as npimport pandas as pd通过pd.read_excel()函数 读取excel格式文件第一个参数为文件路径和名称sheet_name:需要读取的工作表名称header:指定用哪一行作为列名index_col:指定用哪一列作为行名nrows:需要读取的行数test = pd.read_ex
2020-09-08 18:54:43
923
转载 R: ggplot2图片的布局排版
通过 Rmisc包 的 multiplot 函数实现ggplot2多张图片的排版。参考文章链接:R作图 ggplot2图片的布局排版 https://www.bioinfo-scrounger.com/archives/509/
2020-09-07 19:12:47
1336
转载 R:ggrepel包——图形添加标签
原文章链接:R语言可视化学习笔记之ggrepel包 https://www.jianshu.com/p/84e7e0e029cd
2020-09-07 18:20:37
847
原创 R:字符串拆分函数——strsplit2()函数
R base有一个字符串拆分函数strsplit(),使用体验很糟糕。正好遇到一个更好的函数,即limma包内置的strsplit2()函数。
2020-09-06 13:51:02
3640
1
原创 VAF,MAF,肿瘤纯度,MCF,CCF的概念和计算方法 (转载)
VAF的概念和计算方法VAF的全称是Variant Allele Frequency(变异等位基因频率)或Variant Allele Fraction(变异等位基因分数)。简单来说就是在基因组某个位点支持alternate/mutant allele的reads覆盖深度占这个位点总reads覆盖深度的比例。以VCF文件中的字段为例,其中DP代表Total Depth,AD代表Allele Depth,因此VAF的计算就是:VAF=AlleleDepthTotalDepth=ADDP VAF = \fr
2020-09-06 13:21:14
22067
原创 VCF格式
vcf格式VCF是用于描述SNP,INDEL和SV结果的文本文件。在GATK软件中得到最好的支持,当然SAMtools得到的结果也是VCF格式,和GATK的VCF格式有点差别。 vcf格式包括 以“#”开头的注释部分 和 没有“#”开头的主体部分 。vcf的主体结构第1列: CHROM : 参考序列名称第2列: POS:variant的位置;如果是INDEL的话,位置是INDEL的第一个碱基位置第3列: ID:variant的ID;比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用’
2020-09-06 12:40:57
1469
原创 使用Boston房价数据,训练一个一元线性模型
使用Boston房价数据,训练一个一元线性模型import tensorflow as tfimport matplotlib.pyplot as pltBoston_housing数据已经集成到Tensorflow2中了,第一次使用会自动进行下载boston = tf.keras.datasets.boston_housing(x_train, y_train), (x_test, y_test) = boston.load_data()Downloading data from htt
2020-09-03 19:30:29
406
原创 Tensorflow2基础知识点
准备TensorflowTensor表示张量;Numpy只能在CPU中计算;Tensor可以在GPU和TPU中计算。在Tensorflow2版本中,所有张量都可以调用numpy的方法 import tensorflow as tf import numpy as npprint("Tensorflow version:", tf.__version__)Tensorflow version: 2.3.0print("Eger execution is:", tf.executing_ea
2020-09-02 19:27:50
387
原创 Numpy 基础
1. 通过array函数创建多维数组创建一维数组a = np.array([1,2,3,4])print(a)[1 2 3 4]创建二维数组b = np.array([[1,2,3],[4,5,6],[3,2,1]])print(b)[[1 2 3][4 5 6][3 2 1]]2. 数组对象常用的属性(维度、形状、元素个数、元素字节数)以下面的二维数组为例:b = np.array([[1,2,3],[4,5,6],[3,2,1]])print(b)[
2020-09-01 20:25:02
325
原创 MNIST数据集
MNIST数据集MNIST数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员。在TensorFlow2版本中,MNIST已经被集成到了程序数据集中,通过以下代码进行导入(第一次运行会自动下载数据集):import tensor
2020-08-30 18:47:33
540
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅