作者 | AJ Gordon、June Alice 责编 | 屠敏 出品 | CSDN(ID:CSDNnews)
声明:本文仅作学习与交流。
在本文中,分析以“春雨医生”平台作为数据来源,通过Python抓取网站数据,结合“地市等级划分”数据,并再利用tableau制作地图和图表进行数据可视化。本文抓取的数据内容主要是全国范围内不同科室的TOP10医院名单,通过展示不同地区医院上榜的数量,以了解目前国内顶尖医疗水平的城市分布情况。由于本文采用的数据维度较少,结论仅供参考作用。
数据采集
首先,导入所需的库,再构建两个字典,一个存放地区编码,一个存放科室编码。利用两个嵌套for循环构建URL后,将全部URL存放到Redis数据库中,进行下一步操作。
import requests
from bs4 import BeautifulSoup
import pymysql
from concurrent.futures import ThreadPoolExecutor as Pool
from redis import ConnectionPool, Redis
import warnings
warnings.filterwarnings("ignore")
# 地区字典
area_dict = {
'全国': '0',
'黑龙江省': '230000',
'吉林省': '220000',
'辽宁省': '210000',
'河南省': '410000',
'湖北省': '420000',
'湖南省': '430000',
'四川省': '510000',
'贵州省': '520000',
'云南省': '530000',
'重庆市': '500000',
'西藏自治区': '540000',
'陕西省': '610000',
'甘肃省': '620000',
'青海省': '630000',
'宁夏回族自治区': '640000',
'新疆维吾尔自治区': '650000',
'上海市': '310000',
'江苏省': '320000',
'浙江省': '330000',
'安徽省': '340000',
'福建省': '350000',
'江西省': '360000',
'山东省': '370000',
'台湾省': '710000',
'北京市': '110000',
'天津市': '120000',
'山西省': '130000',
'河北省': '140000',
'内蒙古自治区': '150000',
'广东省': '440000',
'广西壮族自治区': '450000',
'海南省': '460000',
'香港特别行政区': '810000',
'澳门特别行政区': '820000',
}
# 科室字典
department_dict = {
'妇科':'1',
'儿科-小儿科':'fa',
'儿科-新小儿科':'fb',
'皮肤性病科-皮肤科':'ha',
'皮肤性病科-性病科':'hb',
'内科-呼吸内科':'aa',
'内科-心血管内科': 'ab',
'内科-神经内科': 'ac',
'内科-消化内科': 'ad',
'内科-肾内科': 'ae',
'内科-内分泌与代谢科': 'af',
'内科-风湿免疫科': 'ag&#