【python爬虫】爬取疾病资料库

最新推荐文章于 2024-05-01 22:57:52 发布

原创

最新推荐文章于 2024-05-01 22:57:52 发布 · 2.6k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python爬虫 #疾病资料库

本文介绍如何使用Python爬虫从疾病资料库http://web.tfrd.org.tw/genehelp/diseaseDatabase.html?selectedIndex=0获取疾病名称。尽管网页源代码中未直接显示数据，但通过F12开发者工具可以找到请求URL。解析该URL的内容，发现大部分文字即为疾病名称。代码实现中，简单地将中文字符识别为疾病名称。

资料库地址：http://web.tfrd.org.tw/genehelp/diseaseDatabase.html?selectedIndex=0

资料库它长这样：

这次主要爬取其中的疾病名称，难点在于网页源代码是看不到数据的，但是可以通过F12开发者工具查看网页请求数据的源网址

可以看到requestURL的地址，打开这个地址可以看到：

其中的大部分文字就是疾病名称，爬取这个就不难了。

首先将源码中的中文字符看作疾病名称！

import requests
import bs4
from bs4 import BeautifulSoup

url= 'http://web.tfrd.org.tw/genehelpDB/GeneHelp/DiseaseDBIndex/'
path= r'C:\Users\谢迎超\Deskt

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Renyan20

关注关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python爬虫-----疾病信息爬取

LIVEAD的博客

08-16

4388

一、爬取内容及网站 1.本次爬取的网站是99健康网中的疾病信息，包括疾病名称，所属科室及体态特征信息 2.网站中具体疾病的搜索路径有两种方式：按科室搜索、按部位搜索（1）按科室搜索：科室–小科室–所含疾病（2）按部位搜索：部位—所含疾病可以看出，按部位搜索的路径更短些，因此本次使用按部位搜索的过程，进行疾病信息的爬取。 3.整体爬取思路：爬取所含部位----按部位爬取每一部位包含的疾病名称...

爬取”药智数据”网站下疾病分类与代码的所有疾病名称

qq_38057718的博客

01-12

2460

先分析页面的url规律，发现url里的参数p为1~7，此时只需使用format函数逐一遍历即可获得每个页面的url。 url_start = ["https://db.yaozh.com/icd?p={}&pageSize=30".format(str(i)) for i in range(1,7)] 再构造allurl()函数解析每个url. 分析页面的疾病名称的xpath路径，

1 条评论您还未登录，请先登录后发表或查看评论

使用scrapy框架爬取一些医疗疾病数据

08-10

使用scrapy框架爬取了问医网上的一些医疗疾病数据，里面涉及到了分页，分块，多级嵌套爬取

毕业设计：医疗数据分析可视化实时监控系统 Python 疾病数据智慧医疗机器学习算法随机森林分类算法模型（源码+讲解视频） ✅

十多年程序猿资深互联网人，目前专注于Python/Java/大数据项目解决方案制定，提供各行业各编程语言的全套开发服务，喜爱code，喜爱分享，生命不止，编码不息！

05-01

1997

毕业设计：医疗数据分析可视化实时监控系统 Python 疾病数据智慧医疗机器学习算法随机森林分类算法模型（源码+讲解视频） ✅

python爬取”药智数据”网站下疾病分类与代码的所有疾病名称

Today_2018的博客

04-29

1509

整体代码如下： import requests import lxml.html import chardet import pymongo # MongoDB数据库初始化，小批量插入数据 def mongodb(content_list): connection = pymongo.MongoClient() db = connection.Disease_classifica...

利于python爬虫爬取淘宝司法拍卖和京东司法拍卖土地的每日信息.zip

09-02

对于淘宝司法拍卖和京东司法拍卖土地信息的爬取，可以设计一套Python爬虫程序，通过模拟正常用户的浏览行为，获取网页上的数据。这些数据包括但不限于拍卖物品的名称、位置、起拍价、保证金、拍卖时间等关键信息。有...

python爬虫爬取58网站数据_Python爬虫，爬取58租房数据字体反爬

weixin_39867212的博客

11-30

1425

Python爬虫，爬取58租房数据这俩天项目主管给了个爬虫任务，要爬取58同城上福州区域的租房房源信息。因为58的前端页面做了base64字体加密所以爬取比较费力，前前后后花了俩天才搞完。项目演示与分析使用python的request库和字体反爬文件，通过替换来实现爬取，最后保存为excel文件演示：分析：1.首先直接从58爬取数据可以很明显的看到所有的数字都被替换成了乱码2.我们打开页面右键...

python爬虫爬取pdf_Python 爬虫：爬取教程生成 PDF

weixin_39935092的博客

12-03

2293

作为一名程序员，经常要搜一些教程，有的教程是在线的，不提供离线版本，这就有些局限了。那么同样作为一名程序员，遇到问题就应该解决它，今天就来将在线教程保存为PDF以供查阅。1、网站介绍之前再搜资料的时候经常会跳转到如下图所示的在线教程：01.教程样式包括一些github的项目也纷纷将教程链接指向这个网站。经过一番查找，该网站是一个可以创建、托管和浏览文档的网站，其网址为：https://readth...

python爬虫爬取某博评论区用于数据分析

04-30

**Python爬虫爬取微博评论区进行数据分析** Python爬虫技术是数据挖掘和数据分析领域中的一个强大工具，尤其在处理网络数据时。本教程将引导你如何使用Python爬虫技术来抓取微博评论区的数据，并对其进行分析。对于...

python 数据分析库_使用python写疾病数据分析用到的所有东西

weixin_39610678的博客

11-24

420

fuck_illness公众号：超级王登科概述为了写一篇关于疾病的数据分析，我爬取了150万疾病问答数据，并使用python做了数据分析，在这里记录整个过程，并给出代码和数据爬虫爬虫文件为：health.py 和 m.py 爬虫没什么好说的，基本的看代码就行，不过有一点，加入多线程后，爬虫隔一段时间效率会下降，甚至卡死，研究了半天也没什么好办法，所以又写了一个监控程序，也就是m.py ，它会每隔五...

大数据癌症疾病预测算法python版（含数据）

04-22

大数据癌症疾病预测算法python版（含数据），建议使用pycharm运行。

deidentify:一个Python库，可通过最新的NLP方法对病历进行身份识别

05-10

取消识别一个Python库，用于使用最新的NLP方法对病历进行身份识别。提供了针对荷兰语的预训练模型。该存储库共享以下论文中开发的资源： J. Trienes，D。Trieschnigg，C。Seifert和D.Hiemstra。比较基于规则，基于特征和深度神经方法的荷兰病历识别。在：2020年第一届ACM WSDM健康搜索和数据挖掘研讨会（HSDM）的会议记录中。您可以从以下链接获得论文的作者版本：。博客文章： : 。快速开始安装使用您选择的环境管理器创建一个新的虚拟环境。然后，安装deidentify ： pip install deidentify 我们使用spaCy标记器。为了与预先训练的模型具有良好的兼容性，我们建议使用与训练去识别模型相同的spaCy版本。 pip install -U " spacy<3 " https://git

医疗问答数据爬取

11-20

通过BeautifulSoup库的ask120爬虫代码，分为科室链接爬取，问答链接爬取，问答详情爬取、医生信息爬取三个部分。

简要代码：python爬取医疗网站病例症状

baidu_41778202的博客

03-25

2343

话不多说，放上代码 import re import requests as req source_link = 'http://jbk.39.net/bw/t1/' my_num = 52 my_link = re.sub('t1/', 't1_p%s/' % my_num, source_link, re.S) # 反爬虫策略 agent = { 'User-agent': 'Moz...

python爬去百度搜索结果_利用python爬取海量疾病名称百度搜索词条目数的爬虫实现...

weixin_39854867的博客

11-24

473

实验原因：目前有一个医疗百科检索项目，该项目中对关键词进行检索后，返回的结果很多，可惜结果的排序很不好，影响用户体验。简单来说，搜索出来的所有符合疾病中，有可能是最不常见的疾病是排在第一个的，而最有可能的疾病可能需要翻很多页才能找到。实验目的：为了优化对搜索结果的排序，想到了利用百度搜索后有显示搜索到多少词条，利用这个词条数，可以有效的对疾病排名进行一个优化。从一方面看，某一个疾病在百度的搜索词条...

python预测疾病_吴裕雄--天生自然python机器学习：使用Logistic回归从疝气病症预测病马的死亡率...

weixin_28989055的博客

12-28

483

，除了部分指标主观和难以测量外，该数据还存在一个问题，数据集中有30%的值是缺失的。下面将首先介绍如何处理数据集中的数据缺失问题，然后再利用 Logistic回归和随机梯度上升算法来预测病马的生死。准备数据：处理被据中的缺失值因为有时候数据相当昂贵，扔掉和重新获取都是不可取的，所以必须采用一些方法来解决这个问题。下面给出了一些可选的做法：这里选择实数0来替换所有缺失值，恰好能适用于Log...

Python数据爬虫教程（非常详细）从零基础入门到精通，看完这一篇就够了