使用python爬取某药品网站药品说明

最新推荐文章于 2023-07-04 13:21:38 发布

绿绿峰

最新推荐文章于 2023-07-04 13:21:38 发布

阅读量3.9k

点赞数 6

分类专栏： python 文章标签： python selenium

本文链接：https://blog.csdn.net/qq_37525899/article/details/104568472

版权

本文展示了一个使用Python和Selenium爬取药品网站说明书的代码示例。代码可能较为混乱，但注释丰富，适合有一定编程基础的读者理解。由于之前未加延迟导致爬取失败，现已加入延时功能，使得爬虫能够正常运行。请注意根据药品URL调整代码，并可考虑使用random库增加随机延时，以及自行安装所需但未包含的类库。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

你瞅一下代码里链接就知道是啥网站了~
首先声明：代码贼乱，因为功能不复杂，就懒得改了，好使就得
如果你想改完且封装一下，或者搞个PDF的类库，更高级，欢迎下边留言
注释贼多，还有参考链接，有点编程基础都能瞅懂
–start–
之前jio得不加延时没有事；
完事就
在这里插入图片描述
估计情况不是对方的反制；
而是没有延时整岔屁辽；
遂小编加了一些sleep；
亲测没事了；

这个虫子就开始欻欻的跑；
废话少说，直接上码；

import re
import requests # 使用网络模块
import base64
from bs4 import BeautifulSoup  # 网页拆分，需要使用pip指令安装
import time # 导入时间模块，延时器使用
from splinter import Browser    # 操作浏览器模块，需要pip安装 
import sys
import urllib.request
# from fontTools.ttLib import TTFont, BytesIO
# 注意：py有着严格的缩进管理
    # win下安装建议使用网址：www.continuum.io/downloads/ 此版本编译器与Linux一致，错误率低
    # 安装常用套件：使用命令 pip install 
    # requests(网络模块)  BeautifulSoup4 jupyter(网页运行器)
    # 获取元素：https://blog.csdn.net/chengsw1993/article/details/92633313
    # splinter中文手册：https://splinter-docs-zh-cn.readthedocs.io/zh/latest/
    # splinter英文手册：https://splinter.readthedocs.io/en/latest/



# 药源网页面 中药 西药
url = 'https://www.yaopinnet.com'
zy_url = 'https://www.yaopinnet.com/zhongyao1'
xy_url = 'https://www.yaopinnet.com/huayao1'
# 药品字母列表
menu_list = ['a','b','c','d','e','f','g','h','j','k','l','m','n','p','q'

最低0.47元/天解锁文章