如何下载Homo_sapiens.GRCh38.100.gtf.gz和Homo_sapiens.GRCh37.87.gtf.gz参考基因组注释文件

1.先去ENSEMBL官网:http://asia.ensembl.org/index.html,点击红框框
在这里插入图片描述
2.继续点击红框框
在这里插入图片描述
3.没有我们想要的版本了
在这里插入图片描述
4.改变网址:
http://ftp.ensembl.org/pub/release-100/gtf/homo_sapiens/

在这里插入图片描述
5.跳转到想要的版本地址,成功

在这里插入图片描述
6.去下载GRCh37版本,回到首页点击红框框

要将GTF(Gene Transfer Format)文件转换为BED(Browser Extensible Data)文件并仅保留前六列,特别是前三列(基因ID、起点终点),你可以使用Python的`pandas`库来处理这种格式的数据转换。首先,确保已经安装了`pandas``biopython`(用于解析GTF)。如果还没有安装,可以使用以下命令安装: ```bash pip install pandas biopython ``` 然后,可以编写一个脚本来读取GTF文件,提取所需信息,创建一个新的DataFrame,并保存为BED格式。这里是一个简单的示例: ```python import pandas as pd from Bio import SeqIO # 假设GTF文件路径为gtf_file_path # 下载GTF文件时,需替换为实际URL gtf_url = "http://example.com/path/to/Homo_sapiens.GRCh37.75.gtf.gz" # 替换为实际URL gtf_file_path = "temp.gtf.gz" # 使用生物信息学库下载GTF文件 !wget -O $gtf_file_path $gtf_url # 解压GTF文件(假设为gzip压缩) !gunzip $gtf_file_path # 定义将GTF转换为 BED 的函数 def gtf_to_bed(gtf_path): records = [] with open(gtf_path, "r") as f: for line in f: if not line.startswith("#"): data = line.strip().split("\t") if data[2] == "exon": # 只考虑exon部分 gene_id = data[8].split(";")[0].split('"')[1] start = int(data[3]) end = int(data[4]) records.append([gene_id, start, end]) df = pd.DataFrame(records, columns=["gene_id", "start", "end"]) return df # 转换并保存为BED格式 bed_df = gtf_to_bed("temp.gtf") bed_df = bed_df[['gene_id', 'start', 'end']] # 取前六列,前三列为['gene_id', 'start', 'end'] bed_df.to_csv("output.bed", sep="\t", header=False, index=False) # 删除临时文件 !rm temp.gtf temp.gtf.gz ``` 运行这段代码后,你会得到名为`output.bed`的文件,其中只包含前六列(基因ID、起点终点)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值