医疗平台在线咨询文本分析——爬取数据(一)

本文旨在分析互联网医疗的发展趋势,通过爬取医疗平台在线咨询数据,展示问诊量的变化。使用Python的requests和BeautifulSoup库进行数据爬取,由于问诊量过大,存在页面省略问题,采用获取总页码数的for循环策略。数据量近6000万条,目前单线程爬取效率低,后续计划优化。通过折线图展示了2010年至2018年的问诊量变化,发现2015年后显著增长,可能与政策推动和用户接受度提升有关。2018年问诊量下降可能因异常数据。后续将进行文本挖掘。
摘要由CSDN通过智能技术生成

一、分析目的

受这次疫情的影响,互联网医疗必然是未来发展的一个趋势,借用在线医疗平台了解用户在线咨询的情况:
一是用户在线咨询的问诊量变化情况;
二是了解用户哪些疾病选择在线咨询较多、希望获得帮助是什么、愿意支付费用是多少等。
本篇主要目的是爬取医疗平台在线咨询数据及问诊量可视化展示。

二、分析步骤及思路

在这里插入图片描述

三、爬取数据

爬虫第一步到第四步代码如下:

import requests
from bs4 import BeautifulSoup
import time
start=time.time()
headers={
   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.5 Safari/605.1.15'}
re=requests.get('https://www.haodf.com/sitemap-cf/2020/',headers=headers) #发送请求获取网页源码
soup=BeautifulSoup(re.text, 'html.parser') #解析源码
### 第一步:获取每一个年份网址链接
### 第二步:获取每一个年份下每一天的网址链接
### 第三步:获取每一天用户在线咨询网址链接,并有页数的变化

### 第四步:获取每一个用户咨询的信息,疾病、疾病描述、希望得到的帮助、患病多久、已就诊医院及科室、用药情况、过敏史、既往病史、咨询价格、咨询数量
#year_list=soup.find_all(name='li')[0].find_all('a') #获取第一个li节点年份的所有a节点信息形成列表
date_list=soup.find_all(name='li')[1].find_all('a') #获取第二个li节点天日期的所有a节点信息形成列表
for i in date_list:  # 遍历每一天信息a节点下信息列表
    n=0
    m = 0
    date_urls=r'https:'+i.get('href')  #得到每一天网址链接的第1页
    date=i.get_text()  #获取日期
    re_1 = requests.get(date_urls, headers=headers) #对每一天网址链接发送请求获取网页源码
    soup_1 = BeautifulSoup(re_1.text, 'html.parser') #解析源码
    question_page_list 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值