yxy
yc豪姐的爬虫project
Model_1
数据网址 :(get访问)
http://pubs.broadinstitute.org/mammals/haploreg/detail_v4.1.php?query=&id= +rs号
用户需求 :获取匹配网址的页面数据,找到E079所在行的所有数据
包括信息:
1、前面四个td列的内容
2、后面所有td列的颜色与内容
项目架构 :
分类
文件名
关联的方法
主程序文件
RunToDownload.py
All
文件操作模块
heatpack\FileRead.py
readxlsx 、 wirter类[__init__ 、wirteline、save]
json数据操作模块
heatpack\jsonUtil.py
Mjson类[All]
页面加载与解析模块
heatpack\LoadPage.py
Loead_Page、getE079
Model_2
数据网址1:(post访问,服务器不稳定)
http://legacy.regulomedb.org/results
连接防异常措施:设置超时10秒,补充请求头,设置重试次数4次
【采坑处1】
数据获取有可能打不开,尝试N次后跳过
getUrl_Score方法解析时 ,tittle不是Server error,而是RegulomeDB Result