ncbi爬虫maf

import urllib.request
import pandas as pd
import re

# 1.逐行读取xls文件列名并获取基因ID
def read_xlsx(path, sheetname,i):
    sheet = pd.read_excel(path, sheetname)
    geneID = []
    for row in sheet.index.values:
        geneID.append(sheet.iloc[row, i-1])
    return geneID

# 2.NCBI搜索基因ID,找到注释信息
def get_infoID(GeneID):
    infoID = []
    for i in GeneID:
        url = f'https://www.ncbi.nlm.nih.gov/gene/?term={i}'  # 查找基因的网址
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
        }
        request = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(request)
        content = response.read().decode('utf-8')
        p = re.findall('<dd>(.*?)<span class="prov">', content)[0]# (.*?)为正则表达式的目标区域
        infoID.append(p)
    return infoID

if __name__ == '__main__':
    # 1.逐行读取xls文件列名并获取基因ID
    GeneID = read_xlsx("C:/Users/27930/Desktop/545679/snpid.xlsx", "218", 1)
    print("读取基因标签完毕,正在获取基因注释!")

    # 2.NCBI搜索基因ID,找到注释信息
    infoID = get_infoID(GeneID)
    print("基因注释获取完毕,正在生成注释表格!")

    # 3.记录注释信息并逐行保存在xls文件中
    df = pd.DataFrame({'GeneID': GeneID, 'Description': infoID})
    writer = pd.ExcelWriter('C:/Users/27930/Desktop/545679/218_with_Description.xlsx')
    df.fillna(' ', inplace=True)  # 文本空格消除掉
    df.to_excel(writer, sheet_name='218', index=False)
    writer.save()

    print("完成")

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值