[记录] GWAS Catalog python爬虫

##pyhon代码格式根据tab缩进判断代码块嵌套,注意缩进格式##python爬虫有常用的包(BeautifulSoup)用来解析HTML格式,一般通过标签提取信息。这里我直接强制转为字典格式输出了。import jsonimport requests##打开输入文件(按行读取)f=open('~/snplist.txt')ls=[]for line in f: ls.append(line.replace('\n',''))f.close()##gwas catalog 为异.
摘要由CSDN通过智能技术生成
##pyhon代码格式根据tab缩进判断代码块嵌套,注意缩进格式
##python爬虫有常用的包(BeautifulSoup)用来解析HTML格式,一般通过标签提取信息。这里我直接强制转为字典格式输出了。
import json
import requests
##打开输入文件(按行读取)
f=open('~/snplist.txt')
ls=[]
for line in f:
    ls.append(line.replace('\n',''))
f.close()
##gwas catalog 为异步加载,直接打开源代码页(右键 View page source)无法获取需要的信息
##非异步加载的网页,一般直接查看源代码页即可获得需要的信息
##解决方法:开发者工具→XHR→Headers(提取网页链接,headers,查看网页数据格式)
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36'}
##创建字典用于储存多个SNP的查询信息,字典格式:键为SNP的rsid,值为查询获得的数据(字典,包括trait,pval,beta等键,可以根据查询需要自行添加)
total=dict()
##打开输出文件
l=open('output.txt','w',encoding='utf-8')
##写入header
l.write("rsid\ttrait\tpvalue\tbeta")
##进入查询循环
for snp in ls:
  
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值