爬虫5个步骤
1、需求分析
有1500个基因名(human genome),想要知道这些基因的基本功能。
2、寻找网址
genecards网站,有关于基因信息的详细描述,包括基因别名,基因简介(包括NCBI, UniProt等网站关于该基因的介绍),基因在基因组上信息等,可以使用此网站的基因简介模块内容,得到我们需要的基因的基本功能。
网站首页有2种搜索方式。以ACE2基因为例
方法1:在Keywords搜索栏中输入基因名称;
方法2:在Explore a Gene处有一个搜索框,可以输入基因名称;
搜索完,直接跳转到详情页
综合分析后,发现方法2得到的网址结构组成更简单,选择这种网址结构,进行后续分析。
3. 下载网址的返回内容(requests)
# 以单个基因ACE2为例
import requests
url = 'https://www.genecards.org/cgi-bin/carddisp.pl?gene=ACE2'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0',
}
def get_search_response(url):
response = requests.get(url, headers=headers)
with open('ACE2.