AI在互联网医疗产品的应用

结构化数据分析

  1. 机器学习(Mechine Learning)是实现人工智能的一种方法,机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测;
  2. 深度学习(Deep learning)又是机器学习的一种实现方式,他是模拟人神经网络的方式,用更多的层数,更多的神经元,然后给系统输入海量的数据,来训练网络;
  3. 统计学是机器学习和神经网络的一种基础知识,从传统分工来看,统计学一般是数学、统计等专业研究的方向,而机器学习是计算机科学的研究方向,但是目前大家的研究成果越来越殊途同归,有统计学的大师就认为统计实际上一直在从事机器学习的工作。
  4. AI计算需要大量的数据,数据从前端传输到后端进行预处理,然后进行标注,获得训练数据集。对下一轮数据,需要对数据集进行调整,或者增加了新的数据集,生成更大的训练数据集;那么整个数据预处理过程是I/O非常密集的过程。数据整理好之后,进行模型训练,这是一个计算和通信非常密集的过程;模型训练完之后,我们进行推理预测,其主要是一个前向计算过程。其需要对批量样本的高吞吐高并发响应和单个样本的低延时响应。
  5. 数据分析过程:问题抽象-》数据域定义-》数据处理-》数据集成-》数据加工-》数据集(用于数据分析的集合)

用户画像

  1. 用户画像系统:基于用户信息,健康档案,交易信息,医学诊断,理赔信息等数据,形成统一用户PID系统和多维度标签系统。
  2. 通过用户PID系统和标签系统来构建用户画像系统,用户画像的列就是分级标签,用户画像的行就是每一个唯一PID的用户信息。当产生老用户额新数据时,通过标签系统关系用户画像的列,实现同步更新画像系统。当产生新用户时,通过标签系统关系用户画像的行,实现同步更新画像系统。

专家知识库

  1. 保险专家和医学专家的深度参与,针对用户能定制场景化的服务
  2. 保险产品库:保险产品的画像需要包括:产品描述,特点,适用人群,标签和保额,缴费要求,投标人,被保人,保险责任,保险条款,保险类型,生效时间,有效期等
  3. 医学知识库:医学知识库的构建一般包括医学规则库、条件库、动态医学知识库三部分。一是存储把专业领域的医学知识和专家的临床试验知识词条化;二是只有在规则的条件、前提表中的每个事实都成立且其结论的权值大于预先设定的阈值时,规则才被视为真实的;三是包括医生在系统运行中输入的数据、系统推理所用的规则、且根据规则得出结论,同时解释医生在提问时的运行过程记录等。

AI个性化服务

  1. 基于业务场景化的AI推荐系统:推荐系统的是一个用户画像中的行为特征与医学或者保险产品的特征匹配的过程。
  2. 用户画像中的特征包含用户自身、用户行为和用户行为结果三部分;物品特征包含标签、内容(关键词)等。
  3. 推荐结果均是基于用户特征及医学或者保险产品的原始数据,在不同维度(时间、多样性、流行度等)上,根据用户需求赋予权重并进行处理(筛选、排序等)后的结果。即遵循用户—特征—产品的过程。当推荐系统生成初始结果后,在通过过滤、排名算法生成最终推荐结果和推荐理由。
  4. 推荐引擎可抽象成一种特征工厂+算法实现,每种特征对应成一种推荐策略,结合不同用户需求,调整每个具体特征上所赋予的权重,最终生成特征物品-特征映射{item:Userfeature},Userfeature为多个特征权重相加后的最终值。

OCR识别

  • OCR图像识别的过程总结如下:
  1. 图片预处理:解决图片中的各种噪声处理,提升自然场景下的印刷图片的识别准确率
  2. 报告文字检测:借助组合神经网络技术,有效的检测出复杂场景的横向分布的文字
  3. 报告文字识别:借助组合神经网络技术,将文本识别转化为时序依赖的序列学习问题
  4. 医学规则引擎:截止异常指标库,建立分词,可以有效提升识别预测准确率

图像识别过程:

  • 预处理
  1. 训练时图片预处理:椒盐噪声、高斯噪声、gamma矫正、随机裁剪、随机对比度、随机饱和度;
  2. 预测时图片处理:
  3. 印刷体图片 :移除边框、二值化、图片膨胀和腐蚀、水平投影、缩放、旋转;
  4. 自然场景图片 :100%;
  • 文字检测: 检测在实际中主要用于图像识别的预处理,即在图像中准确标定出文字的位置和大小。图像中包含的模式特征十分丰富,如直方图特征、颜色特征、模板特征、结构特征及Haar特征等。检测就是把这其中有用的信息挑出来,并利用这些特征实现人脸检测。
  1. CTPN:CTPN结合CNN与LSTM深度网络,其中,CNN用来提取深度特征,RNN用于序列的特征识别,能有效的检测出复杂场景的横向分布的文字;
  2. 图片形态学轮廓处理;
  3. 印刷体图片文字检测准确率:98%
  4. 自然场地图片:97%
  • 文字识别:提取的图像的特征数据与数据库中存储的特征模板进行搜索匹配,通过设定一个阈值,当相似度超过这一阈值,则把匹配得到的结果输出。识别就是将待识别的图像特征与已得到的特征模板进行比较,根据相似程度对图像的身份信息进行判断。这一过程又分为两类:一类是确认,是一对一进行图像比较的过程,另一类是辨认,是一对多进行图像匹配对比的过程。
  1. CNN+RNN+CTC:端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,将文本识别转化为时序依赖的序列学习问题,是基于图像的序列识别。
  2. 准确率:93%

知识抽取:

      数据的结构化存储是数据分析处理和利用的关键,但从临床角度来看,描述性语言是电子病历应用的首选方式,电子病历系统中非结构化数据达85%以上[2],且存在术语、编码标准不一,为计算机自动处理制造了障碍。 自然语言处理技术(NLP)在生物医学领域迅速发展,是医疗信息提取、知识发现的关键技术,是上层智能诊疗决策支持、医学科研等应用层的基础。NLP的关键性基础任务——命名实体识别(Named Entity Recognition,NER),是医疗信息抽取研究领域的重要扩展,本质上是一个医疗信息分类问题,该领域的基础夯实是影响NLP技术进展的重中之重。医学领域中的命名实体识别,指的是将重要的医学实体,如疾病、症状等,从医学文本中抽取出来,其结果是关系提取等后续医学任务的基础。是将非结构化或半结构化描述的自然语言文本转化成结构化特征的一种基础自然语言处理(NLP)任务,它包括三类子任务:

  1. 抽取文本中指定类型的实体(实体抽取/命名实体识别,NER);比如:高血压
  2. 抽取实体之间的语义关系(关系抽取,RE);比如:高血压和BMI关系
  3. 文本中的事件(event)。比如:胆囊息肉

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值