资料库地址:http://web.tfrd.org.tw/genehelp/diseaseDatabase.html?selectedIndex=0
资料库它长这样:
这次主要爬取其中的疾病名称,难点在于网页源代码是看不到数据的,但是可以通过F12开发者工具查看网页请求数据的源网址
可以看到requestURL的地址,打开这个地址可以看到:
其中的大部分文字就是疾病名称,爬取这个就不难了。
首先将源码中的中文字符看作疾病名称!
import requests
import bs4
from bs4 import BeautifulSoup
url= 'http://web.tfrd.org.tw/