python爬虫和医学数据_yxy: 医学研究生要的爬虫数据

最新推荐文章于 2023-04-02 11:45:08 发布

weixin_39758048

最新推荐文章于 2023-04-02 11:45:08 发布

阅读量376

点赞数

文章标签： python爬虫和医学数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39758048/article/details/113672619

版权

本文介绍了医学研究生如何使用Python进行网络爬虫，以获取医学相关数据。主要内容包括从两个不同网址抓取数据，处理服务器不稳定、数据获取异常等问题，涉及到数据解析、异常处理和文件操作等技术。项目结构清晰，分为Model_1和Model_2，分别对应不同的数据获取策略。最终将数据整合并输出到文件。

摘要由CSDN通过智能技术生成

yxy

yc豪姐的爬虫project

Model_1

数据网址：(get访问)

http://pubs.broadinstitute.org/mammals/haploreg/detail_v4.1.php?query=&id= +rs号

用户需求：获取匹配网址的页面数据，找到E079所在行的所有数据

包括信息：

1、前面四个td列的内容

2、后面所有td列的颜色与内容

项目架构 :

分类

文件名

关联的方法

主程序文件

RunToDownload.py

All

文件操作模块

heatpack\FileRead.py

readxlsx 、 wirter类[__init__ 、wirteline、save]

json数据操作模块

heatpack\jsonUtil.py

Mjson类[All]

页面加载与解析模块

heatpack\LoadPage.py

Loead_Page、getE079

Model_2

数据网址1：(post访问，服务器不稳定)

http://legacy.regulomedb.org/results

连接防异常措施：设置超时10秒，补充请求头，设置重试次数4次

【采坑处1】

数据获取有可能打不开，尝试N次后跳过

getUrl_Score方法解析时，tittle不是Server error，而是RegulomeDB Result

最低0.47元/天解锁文章

weixin_39758048

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫和医学数据_yxy: 医学研究生要的爬虫数据

yxyyc豪姐的爬虫projectModel_1数据网址：(get访问)http://pubs.broadinstitute.org/mammals/haploreg/detail_v4.1.php?query=&id= +rs号用户需求：获取匹配网址的页面数据，找到E079所在行的所有数据包括信息：1、前面四个td列的内容2、后面所有td列的颜色与内容项目架构 :分类文件名关联的方法...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。