python爬取中国医药信息查询平台针灸经络穴位信息

最新推荐文章于 2025-05-02 00:25:31 发布

紫微斗数象法奥义

最新推荐文章于 2025-05-02 00:25:31 发布

阅读量485

点赞数 2

分类专栏： python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/u011619323/article/details/137937026

版权

python 专栏收录该内容

55 篇文章

订阅专栏

# !/usr/bin/env python
# -*-coding:utf-8 -*-
# File       : 20240329.py
# Time       ：2024/3/29 18:00
# Author     ：QQ736592720
import os.path
import re

import requests
from bs4 import BeautifulSoup
data=[]
sss = '''尺泽 孔最 列缺 鱼际 少商 商阳 合谷 手三里 曲池 肩髃 迎香 地仓 下关 头维 天枢 梁丘 犊鼻 足三里 上巨虚 条口 丰隆 内庭 公孙 三阴交 地机 阴陵泉 血海 大横 通里 神门 后溪 少府 养老 天宗 听宫 攒竹 天柱 肺俞 膈俞 胃俞 肾俞 大肠俞 次髎 委中 膏肓 秩边 承山 昆仑 申脉 至阴 涌泉 太溪 照海 复溜 郄门 内关 大陵 中冲 中渚 外关 支沟 翳风 风池 肩颈 环跳 阳陵泉 悬钟 丘墟 太冲 蠡沟 期门 腰阳关 命门 大椎 百会 神庭 水沟 印堂 中极 关元 气海 中脘 膻中 天突 四神聪 太阳 定喘 夹脊 腰痛点 十宣
'''
sss = sss.strip()
ls = sss.split(' ')  ##90个常用穴位
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"}

def get_pagedata(xwmc, link):
    res = requests.get(link, headers=headers)  # 134
    # 查看响应状态码
    if res.status_code == 200:
        print("通讯正常，状态码:{}".format(res.status_code))
    else:
        print("连接异常，状态码:{}".format(res.status_code))
        exit()
    sp = BeautifulSoup(res.text, 'lxml')
    for li in sp.select('p'):
        temp = li.text
        #1、配百会穴、水沟穴、合谷穴、颊车穴治中风昏迷。
        mch=re.match("\d{1,2}、.*配(.*)。", temp)
        if mch:
            print(xwmc+"、"+mch.group(1))
            data.append(xwmc+"、"+mch.group(1).strip())
def getdata(page_number):
    r = requests.get('https://www.dayi.org.cn/list/9/' + page_number, headers=headers)  # 134
    # 查看响应状态码
    if r.status_code == 200:
        print("通讯正常，状态码:{}".format(r.status_code))
    else:
        print("连接异常，状态码:{}".format(r.status_code))
        exit()
    soup = BeautifulSoup(r.text, 'lxml')
    for li in soup.select('a'):
        temp = li.text
        if temp[-1] == "穴":
            # print(li.text[:-1])
            temp = li.text[:-1]
            if temp in ls:
                link = "https://www.dayi.org.cn" + li.get("href")
                print(temp, link)
                get_pagedata(temp, link)


if __name__ == '__main__':
    path = r"C:\Users\999\Desktop\data.txt"
    for p in range(1, 134):
        print(f"中国医药信息查询平台，获取第 {p} 页，开始")
        getdata(str(p))
        print(f"中国医药信息查询平台，获取第 {p} 页，结束")
        if os.path.exists(path):
            os.remove(path)
        fd=open(path,"w", encoding='utf-8')
        fd.write("\n".join(data))
        fd.close()