Python 药品说明书结构化,药品适应症提取,基于正则处理药品适应症,药品知识图谱的基础,药品数据标准化

任务需求:将NER处理后的药品适应症进行加工,使其更加结构化

数据如下:

药品名称对应的适应症没有被一一分开,这样的数据噪声还是很大。

处理代码:

import pandas as pd
import re

#读入数据
df_01 = pd.read_excel('实体识别结果_0405.xlsx')
df_01.head()

基于正则分割:

#定义正则分隔符
pattern = '●|•|〇|·|;|/| |\?|、|,|?|\\|。|;|;|\*|2:|1.|2.|﹑'

#创建一个空列表,将分割结果装进列表
lis = []
for i in df_01.values:
    if pd.isnull(i[1]):#排除非零,这里有很多写法,也可以if i[1]:进行判断,非0进行如下操作
        continue
    shi = re.split(pattern=pattern , string=i[1])#适应症分割
    for j in shi:
        if j:
            lis.append([i[0],j])
#列表转化为dataframe
df_02 = pd.DataFrame(lis,columns = ["药名","适应症"])
df_02.head()

 保存结果:

df_02.to_excel('适应症_2022.xlsx')

总结:适应症的结构化是合理用药审核的必要阶段,也是药品知识图谱构建的必要步骤,正则的应用起到了关键左右,简单而又重要!

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

医学小达人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值