Python 药品说明书结构化，药品适应症提取，基于正则处理药品适应症，药品知识图谱的基础，药品数据标准化

医学小达人

于 2022-04-09 21:59:38 发布

阅读量2k

点赞数 1

分类专栏：合理用药审核 neo4j Python数据基础文章标签： python 大数据知识图谱

本文链接：https://blog.csdn.net/L_goodboy/article/details/124068820

版权

Python数据基础同时被 3 个专栏收录

59 篇文章 16 订阅

订阅专栏

neo4j

5 篇文章 11 订阅

订阅专栏

合理用药审核

3 篇文章 2 订阅

订阅专栏

任务需求：将NER处理后的药品适应症进行加工，使其更加结构化

数据如下：

药品名称对应的适应症没有被一一分开，这样的数据噪声还是很大。

处理代码：

import pandas as pd
import re

#读入数据
df_01 = pd.read_excel('实体识别结果_0405.xlsx')
df_01.head()

基于正则分割：

#定义正则分隔符
pattern = '●|•|〇|·|；|/| |\?|、|，|？|\\|。|；|;|\*|2：|1.|2.|﹑'

#创建一个空列表，将分割结果装进列表
lis = []
for i in df_01.values:
    if pd.isnull(i[1]):#排除非零，这里有很多写法，也可以if i[1]:进行判断，非0进行如下操作
        continue
    shi = re.split(pattern=pattern , string=i[1])#适应症分割
    for j in shi:
        if j:
            lis.append([i[0],j])
#列表转化为dataframe
df_02 = pd.DataFrame(lis,columns = ["药名","适应症"])
df_02.head()