生信
文章平均质量分 65
Cccrush
这个作者很懒,什么都没留下…
展开
-
[记录] GWAS Catalog python爬虫
##pyhon代码格式根据tab缩进判断代码块嵌套,注意缩进格式##python爬虫有常用的包(BeautifulSoup)用来解析HTML格式,一般通过标签提取信息。这里我直接强制转为字典格式输出了。import jsonimport requests##打开输入文件(按行读取)f=open('~/snplist.txt')ls=[]for line in f: ls.append(line.replace('\n',''))f.close()##gwas catalog 为异.原创 2021-05-13 16:18:53 · 1385 阅读 · 0 评论 -
ggplot2绘图实例第一回——生物信息学物种丰度的堆叠图
原图片链接:https://media.springernature.com/full/springer-static/image/art%3A10.1038%2Fs41467-019-11682-z/MediaObjects/41467_2019_11682_Fig1_HTML.png?as=webpR语言绘制结果 ...原创 2019-10-25 17:53:06 · 7950 阅读 · 4 评论 -
[笔记]python对FASTA文件的处理
这学期选了生信的选修课—perl/python在生物信息学中的应用把结课作业的代码整理出来主要是python对FASTA文件的读取和数据处理FASTA文件数据处理FASTA文件读取:只含一个基因序列将FASTA文件的基因序列读取到一个列表中,列表中的每个元素为每一行基因序列构成的字符串f=open('/home/miaoyr/perl_practice/test1_file/DTNBP1.fast...原创 2018-04-27 19:17:06 · 28289 阅读 · 0 评论 -
进化树构建的方法原理及检验
进化树的构建(1)数据准备目前,构建生命之树常用的数据包括形态数据和分子数据。形态数据主要通过对形态性状编码来获取;分子数据主要通过公共数据库GeBank下载或实验获取。选择合适的DNA片段对系统发育关系重建至关重要。如果所选基因的进化速率太慢,提供的系统发育信息不足, 系统发育关系可能得不到很好的解决;如果所选基因的进化速率太快,正确的系统发育信息常常会被大量的非同源相似信号淹没...原创 2019-05-30 13:57:31 · 39654 阅读 · 2 评论 -
连锁不平衡的计算以及LDSC分析多基因遗传
连锁不平衡(linkage disequilibrium,LD)是指在某一个群体中,不同座位上两个基因同时遗传的频率明显高于预期的随机频率现象,连锁不平衡的程度通常用 r2 来衡量。D是LD的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的计算方法如下:D=P(AB)-P(A)*P(B)P(AB)表示实际观察到的AB频率,P(A)*P(B)表示AB频率的期望值。(如果发生连锁不平...原创 2019-09-16 12:03:05 · 14722 阅读 · 0 评论 -
GWAS相关名词解释及基础知识储备[长期更新]
转载自http://www.360doc.com/content/18/1115/16/42030643_795076897.shtml相关名词解释Genome-wide association studies(关联分析):扫描遗传标记,通常是单核苷酸多态性(SNPs),使用统计学相关的手段以发现与性状相关的变异体Complex traits(杂合性状):无论是由多基因和环境因素共同作...转载 2019-09-18 10:06:19 · 16911 阅读 · 5 评论 -
R语言课程练习记录
例1.数据大概是这个样子:1)用 readr 包中的函数读取 mouse genes 文件2)选取常染色体的基因3)画以下两个基因长度 boxplot :按染色体序号排列,从 1 开始按基因长度中值排列,从短 -> 长 …遇到的问题:tibble和data frame的区别?tibble不会自动针对每列生成因子分别读入tibble和data frame数据?mouse...原创 2019-10-10 19:08:50 · 1409 阅读 · 4 评论