# !/usr/bin/env python
# -*-coding:utf-8 -*-
# File : 20240329.py
# Time :2024/3/29 18:00
# Author :QQ736592720
import os.path
import re
import requests
from bs4 import BeautifulSoup
data=[]
sss = '''尺泽 孔最 列缺 鱼际 少商 商阳 合谷 手三里 曲池 肩髃 迎香 地仓 下关 头维 天枢 梁丘 犊鼻 足三里 上巨虚 条口 丰隆 内庭 公孙 三阴交 地机 阴陵泉 血海 大横 通里 神门 后溪 少府 养老 天宗 听宫 攒竹 天柱 肺俞 膈俞 胃俞 肾俞 大肠俞 次髎 委中 膏肓 秩边 承山 昆仑 申脉 至阴 涌泉 太溪 照海 复溜 郄门 内关 大陵 中冲 中渚 外关 支沟 翳风 风池 肩颈 环跳 阳陵泉 悬钟 丘墟 太冲 蠡沟 期门 腰阳关 命门 大椎 百会 神庭 水沟 印堂 中极 关元 气海 中脘 膻中 天突 四神聪 太阳 定喘 夹脊 腰痛点 十宣
'''
sss = sss.strip()
ls = sss.split(' ') ##90个常用穴位
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"}
def get_pagedata(xwmc, link):
res = requests.get(link, headers=headers) # 134
# 查看响应状态码
if res.status_code == 200:
print("通讯正常,状态码:{}".format(res.status_code))
else:
print("连接异常,状态码:{}".format(res.status_code))
exit()
sp = BeautifulSoup(res.text, 'lxml')
for li in sp.select('p'):
temp = li.text
#1、配百会穴、水沟穴、合谷穴、颊车穴治中风昏迷。
mch=re.match("\d{1,2}、.*配(.*)。", temp)
if mch:
print(xwmc+"、"+mch.group(1))
data.append(xwmc+"、"+mch.group(1).strip())
def getdata(page_number):
r = requests.get('https://www.dayi.org.cn/list/9/' + page_number, headers=headers) # 134
# 查看响应状态码
if r.status_code == 200:
print("通讯正常,状态码:{}".format(r.status_code))
else:
print("连接异常,状态码:{}".format(r.status_code))
exit()
soup = BeautifulSoup(r.text, 'lxml')
for li in soup.select('a'):
temp = li.text
if temp[-1] == "穴":
# print(li.text[:-1])
temp = li.text[:-1]
if temp in ls:
link = "https://www.dayi.org.cn" + li.get("href")
print(temp, link)
get_pagedata(temp, link)
if __name__ == '__main__':
path = r"C:\Users\999\Desktop\data.txt"
for p in range(1, 134):
print(f"中国医药信息查询平台,获取第 {p} 页,开始")
getdata(str(p))
print(f"中国医药信息查询平台,获取第 {p} 页,结束")
if os.path.exists(path):
os.remove(path)
fd=open(path,"w", encoding='utf-8')
fd.write("\n".join(data))
fd.close()
python爬取中国医药信息查询平台针灸经络穴位信息
最新推荐文章于 2025-05-02 00:25:31 发布