python爬虫和医学数据_yxy: 医学研究生要的爬虫数据

本文介绍了医学研究生如何使用Python进行网络爬虫,以获取医学相关数据。主要内容包括从两个不同网址抓取数据,处理服务器不稳定、数据获取异常等问题,涉及到数据解析、异常处理和文件操作等技术。项目结构清晰,分为Model_1和Model_2,分别对应不同的数据获取策略。最终将数据整合并输出到文件。
摘要由CSDN通过智能技术生成

yxy

yc豪姐的爬虫project

Model_1

数据网址 :(get访问)

http://pubs.broadinstitute.org/mammals/haploreg/detail_v4.1.php?query=&id= +rs号

用户需求 :获取匹配网址的页面数据,找到E079所在行的所有数据

包括信息:

1、前面四个td列的内容

2、后面所有td列的颜色与内容

项目架构 :

分类

文件名

关联的方法

主程序文件

RunToDownload.py

All

文件操作模块

heatpack\FileRead.py

readxlsx 、 wirter类[__init__ 、wirteline、save]

json数据操作模块

heatpack\jsonUtil.py

Mjson类[All]

页面加载与解析模块

heatpack\LoadPage.py

Loead_Page、getE079

Model_2

数据网址1:(post访问,服务器不稳定)

http://legacy.regulomedb.org/results

连接防异常措施:设置超时10秒,补充请求头,设置重试次数4次

【采坑处1】

数据获取有可能打不开,尝试N次后跳过

getUrl_Score方法解析时 ,tittle不是Server error,而是RegulomeDB Result

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值