使用python爬取某药品网站药品说明

本文展示了一个使用Python和Selenium爬取药品网站说明书的代码示例。代码可能较为混乱,但注释丰富,适合有一定编程基础的读者理解。由于之前未加延迟导致爬取失败,现已加入延时功能,使得爬虫能够正常运行。请注意根据药品URL调整代码,并可考虑使用random库增加随机延时,以及自行安装所需但未包含的类库。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

你瞅一下代码里链接就知道是啥网站了~
首先声明:代码贼乱,因为功能不复杂,就懒得改了,好使就得
如果你想改完且封装一下,或者搞个PDF的类库,更高级,欢迎下边留言
注释贼多,还有参考链接,有点编程基础都能瞅懂
–start–
之前jio得不加延时没有事;
完事就
在这里插入图片描述
估计情况不是对方的反制;
而是没有延时整岔屁辽;
遂小编加了一些sleep;
亲测没事了;
在这里插入图片描述
这个虫子就开始欻欻的跑;
废话少说,直接上码;

import re
import requests # 使用网络模块
import base64
from bs4 import BeautifulSoup  # 网页拆分,需要使用pip指令安装
import time # 导入时间模块,延时器使用
from splinter import Browser    # 操作浏览器模块,需要pip安装 
import sys
import urllib.request
# from fontTools.ttLib import TTFont, BytesIO
# 注意:py有着严格的缩进管理
    # win下安装建议使用网址:www.continuum.io/downloads/ 此版本编译器与Linux一致,错误率低
    # 安装常用套件:使用命令 pip install 
    # requests(网络模块)  BeautifulSoup4 jupyter(网页运行器)
    # 获取元素:https://blog.csdn.net/chengsw1993/article/details/92633313
    # splinter中文手册:https://splinter-docs-zh-cn.readthedocs.io/zh/latest/
    # splinter英文手册:https://splinter.readthedocs.io/en/latest/



# 药源网页面 中药 西药
url = 'https://www.yaopinnet.com'
zy_url = 'https://www.yaopinnet.com/zhongyao1'
xy_url = 'https://www.yaopinnet.com/huayao1'
# 药品字母列表
menu_list = ['a','b','c','d','e','f','g','h','j','k','l','m','n','p','q'
Python爬取丁香园(DXY,中国知名的医疗健康信息网站)的说明书通常涉及网络爬虫技术,特别是使用如BeautifulSoup、Scrapy等库配合requests库来抓取网页内容。以下是简单的步骤: 1. **安装必要的库**: 首先需要安装`requests`用于发送HTTP请求,`lxml`或`bs4`(BeautifulSoup的库)用于解析HTML。 ```bash pip install requests beautifulsoup4 ``` 2. **编写爬虫脚本**: 使用Python创建一个函数,通过URL获取药品详情页面,并解析出所需的药品说明部分。由于丁香园的页面结构可能会有变化,你需要分析并定位到药品说明的位置。 ```python import requests from bs4 import BeautifulSoup def fetch_drug_manual(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'lxml') # 假设药品说明在某个特定的div或section标签下 manual_area = soup.find('div', {'class': 'drug-manual'}) if manual_area: drug_manual = manual_area.get_text().strip() else: drug_manual = "找不到药品说明" return drug_manual # 示例: url = "https://drugs.dxy.cn/drug/d0655" # 替换为你想要查询的物ID或URL manual = fetch_drug_manual(url) print("药品说明:", manual) ``` **注意**: - 在实际操作中,你需要遵守丁香园的robots.txt规则和使用条款,确保你的爬虫活动不会对服务器造成过大的负担或侵犯隐私。 - 药品数据可能受版权保护,未经允许直接抓取用于商业目的可能违法。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值