人工智能自动组方实习笔记7—中医数据预处理中使用过的python代码

最新推荐文章于 2024-12-07 22:11:33 发布

BJUT赵亮

最新推荐文章于 2024-12-07 22:11:33 发布

阅读量1.6k

点赞数 4

分类专栏：人工智能自动组方 python代码文章标签：北京工业大学赵亮 python 数据预处理

本文链接：https://blog.csdn.net/qq_22235017/article/details/81749124

版权

本文是作者在中医自动组方实习中的数据预处理笔记，分享了如何从方剂数据中提取药物，通过药物名称和别名进行映射的Python代码，旨在记录操作并为有相同需求的开发者提供参考。文章还提到了数据预处理系列的其他部分，如中医分类和方剂推荐等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文记录了在中医自动组方实习中对于中医数据预处理过程中使用过的python代码及遇到过的问题解决方法，代码没有什么深度只是日常操作，在此做个记录以便将来如果有问题再进行查找，如果有那位小伙伴在做类似的工作，请在博文下留言或者发邮件和我沟通交流（1318525510@qq.com）
以下为该项目的系列文章
工作记录
 萤火虫算法
 FCM模糊C聚类
 爬虫及python代码
 数据预处理
 中医分类及python代码
 数据预处理python代码
 基于字典的最大正向匹配
 基于欧式距离的方剂推荐
 基于方剂相似性的方剂推荐
 GitHub地址

从方剂方剂数据中提取药物

import pandas as pd
import re
f = open('原始数据.csv','r')
f1 = open('分割后的药物名.txt','w',encoding='utf-8')
f = pd.read_csv(f)
yaowu = []
'''
对于药物的原始数据来说，因为很多方剂或者病例的药物组成中是药物剂量和炮制方法注意事项放在一起的
所有首先要对药物的剂量数据去掉（这一步的正则表达式很重要，一定要经过测试），然后在去掉炮制方法，得到单纯的药物信息
在药物组成信息中会有很多冗余的很杂的信息，在此要一并去掉
将得到的药物信息去重后保存起来以待后期处理
'''
for i in range(f.shape[0]):
    a = f['药物组成'].loc[i]
    a = re.sub(r'[\d半一二三四五六七八九十小中大][节两克片分枚个gml%寸钱斤对粒只付升铢株尺条盏秤滴厘杯双具斗颗匙头把至字合]',repl='',string=a)
    a = re.sub(r'[节两克片分枚个gml%寸钱斤对粒只付升铢株尺条盏秤滴厘杯双具斗颗匙头把]半',repl='',string=a)
    a = re.sub(r'[\d半一二三四五六七八九十小中大]?匙头[半]?',repl='',string=a)
    a = re.sub(r'《.*》',repl='',string=a)
    a = re.sub(r'一些|如鸡子大|鸡子大|茶碗|如小指大握|各等|不拘多少|不计多少|不以多少|如碗许大|两半|少许|适量|仁半|鸡子许|鸡子壳许|如鸡子|少许|若干|加倍|细末|小块|取汁斗',repl='',string=a)
    a = re.sub(r'ko',repl='',string=a)
    a = re.sub(r'[一二三四五六七八九十]+上末',repl='',string=a)
    a = re.sub(r'-',repl='',string=a)
    a = re.sub(r'或',repl='',string=a)
    a

最低0.47元/天解锁文章