ncbi爬虫maf

Chivess

已于 2022-05-17 20:17:02 修改

阅读量295

点赞数

文章标签： python 爬虫生物学

于 2022-05-17 20:15:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61852405/article/details/124829011

版权

import urllib.request
import pandas as pd
import re

# 1.逐行读取xls文件列名并获取基因ID
def read_xlsx(path, sheetname,i):
    sheet = pd.read_excel(path, sheetname)
    geneID = []
    for row in sheet.index.values:
        geneID.append(sheet.iloc[row, i-1])
    return geneID

# 2.NCBI搜索基因ID，找到注释信息
def get_infoID(GeneID):
    infoID = []
    for i in GeneID:
        url = f'https://www.ncbi.nlm.nih.gov/gene/?term={i}'  # 查找基因的网址
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
        }
        request = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(request)
        content = response.read().decode('utf-8')
        p = re.findall('<dd>(.*?)<span class="prov">', content)[0]# (.*?)为正则表达式的目标区域
        infoID.append(p)
    return infoID

if __name__ == '__main__':
    # 1.逐行读取xls文件列名并获取基因ID
    GeneID = read_xlsx("C:/Users/27930/Desktop/545679/snpid.xlsx", "218", 1)
    print("读取基因标签完毕，正在获取基因注释！")

    # 2.NCBI搜索基因ID，找到注释信息
    infoID = get_infoID(GeneID)
    print("基因注释获取完毕，正在生成注释表格！")

    # 3.记录注释信息并逐行保存在xls文件中
    df = pd.DataFrame({'GeneID': GeneID, 'Description': infoID})
    writer = pd.ExcelWriter('C:/Users/27930/Desktop/545679/218_with_Description.xlsx')
    df.fillna(' ', inplace=True)  # 文本空格消除掉
    df.to_excel(writer, sheet_name='218', index=False)
    writer.save()

    print("完成")

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ncbi爬虫maf

import urllib.requestimport pandas as pdimport re# 1.逐行读取xls文件列名并获取基因IDdef read_xlsx(path, sheetname,i): sheet = pd.read_excel(path, sheetname) geneID = [] for row in sheet.index.values: geneID.append(sheet.iloc[row, i-1]) ret.
复制链接

扫一扫

Chivess CSDN认证博客专家 CSDN认证企业博客

码龄3年

6: 原创

112万+: 周排名

30万+: 总排名

4620: 访问

: 等级

66: 积分

4: 粉丝

4: 获赞

4: 评论

17: 收藏

私信

关注

热门文章

最新评论

g++ : Depends: g++-9 (＞= 9.3.0-3~) but it is not going to be installed
CSDN-Ada助手: 恭喜您写了第5篇博客！标题中的问题看起来是与g++编译器相关的依赖项出现了一些困难。我建议您尝试查找并安装g++-9的版本，以满足依赖项的要求。同时，您可以考虑在博客中分享解决这类问题的方法，以帮助更多遇到类似困扰的读者。非常期待您下一步的创作，谦虚地说，您的博客内容一直给我们带来了很多启发！加油！
Failed to load module “canberra-gtk-module“
CSDN-Ada助手: 恭喜您写了第6篇博客！标题“Failed to load module 'canberra-gtk-module'”引起了我的兴趣。我很高兴看到您持续创作并分享您的经验。关于这个问题，我想提供一些建议，希望对您的下一步创作有所帮助。或许您可以进一步探索这个问题的解决方法，并与读者分享您的经验和解决方案。同时，如果您愿意，可以考虑探索其他相关主题，以丰富您的博客内容。再次恭喜您，并期待您未来更多精彩的创作！
ncbi爬虫geneID注释
2301_77381734: 你好，你这个问题解决了吗
ncbi爬虫geneID注释
qq_40231483: 一直报错：Traceback (most recent call last): File "e:\BaiduSyncdisk\vscode\Gene description.py", line 40, in <module> infoID = get_infoID(GeneID) File "e:\BaiduSyncdisk\vscode\Gene description.py", line 28, in get_infoID p = re.findall('<dd>(.*?)<span class="prov">', IndexError: list index out of range

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。