你瞅一下代码里链接就知道是啥网站了~
首先声明:代码贼乱,因为功能不复杂,就懒得改了,好使就得
如果你想改完且封装一下,或者搞个PDF的类库,更高级,欢迎下边留言
注释贼多,还有参考链接,有点编程基础都能瞅懂
–start–
之前jio得不加延时没有事;
完事就
估计情况不是对方的反制;
而是没有延时整岔屁辽;
遂小编加了一些sleep;
亲测没事了;
这个虫子就开始欻欻的跑;
废话少说,直接上码;
import re
import requests # 使用网络模块
import base64
from bs4 import BeautifulSoup # 网页拆分,需要使用pip指令安装
import time # 导入时间模块,延时器使用
from splinter import Browser # 操作浏览器模块,需要pip安装
import sys
import urllib.request
# from fontTools.ttLib import TTFont, BytesIO
# 注意:py有着严格的缩进管理
# win下安装建议使用网址:www.continuum.io/downloads/ 此版本编译器与Linux一致,错误率低
# 安装常用套件:使用命令 pip install
# requests(网络模块) BeautifulSoup4 jupyter(网页运行器)
# 获取元素:https://blog.csdn.net/chengsw1993/article/details/92633313
# splinter中文手册:https://splinter-docs-zh-cn.readthedocs.io/zh/latest/
# splinter英文手册:https://splinter.readthedocs.io/en/latest/
# 药源网页面 中药 西药
url = 'https://www.yaopinnet.com'
zy_url = 'https://www.yaopinnet.com/zhongyao1'
xy_url = 'https://www.yaopinnet.com/huayao1'
# 药品字母列表
menu_list = ['a','b','c','d','e','f','g','h','j','k','l','m','n','p','q'