[记录] GWAS Catalog python爬虫

最新推荐文章于 2023-11-27 23:41:51 发布

Cccrush

最新推荐文章于 2023-11-27 23:41:51 发布

阅读量1.3k

点赞数

分类专栏：生信 py

本文链接：https://blog.csdn.net/Cccrush/article/details/116754769

版权

##pyhon代码格式根据tab缩进判断代码块嵌套,注意缩进格式##python爬虫有常用的包（BeautifulSoup）用来解析HTML格式，一般通过标签提取信息。这里我直接强制转为字典格式输出了。import jsonimport requests##打开输入文件（按行读取）f=open('~/snplist.txt')ls=[]for line in f: ls.append(line.replace('\n',''))f.close()##gwas catalog 为异.

摘要由CSDN通过智能技术生成

##pyhon代码格式根据tab缩进判断代码块嵌套,注意缩进格式
##python爬虫有常用的包（BeautifulSoup）用来解析HTML格式，一般通过标签提取信息。这里我直接强制转为字典格式输出了。
import json
import requests
##打开输入文件（按行读取）
f=open('~/snplist.txt')
ls=[]
for line in f:
    ls.append(line.replace('\n',''))
f.close()
##gwas catalog 为异步加载，直接打开源代码页（右键 View page source）无法获取需要的信息
##非异步加载的网页，一般直接查看源代码页即可获得需要的信息
##解决方法：开发者工具→XHR→Headers(提取网页链接，headers，查看网页数据格式)
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36'}
##创建字典用于储存多个SNP的查询信息，字典格式：键为SNP的rsid,值为查询获得的数据（字典，包括trait,pval,beta等键，可以根据查询需要自行添加）
total=dict()
##打开输出文件
l=open('output.txt','w',encoding='utf-8')
##写入header
l.write("rsid\ttrait\tpvalue\tbeta")
##进入查询循环
for snp in ls:

最低0.47元/天解锁文章

Cccrush

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[记录] GWAS Catalog python爬虫

##pyhon代码格式根据tab缩进判断代码块嵌套,注意缩进格式##python爬虫有常用的包（BeautifulSoup）用来解析HTML格式，一般通过标签提取信息。这里我直接强制转为字典格式输出了。import jsonimport requests##打开输入文件（按行读取）f=open('~/snplist.txt')ls=[]for line in f: ls.append(line.replace('\n',''))f.close()##gwas catalog 为异.
复制链接

扫一扫