医疗知识图谱项目笔记(四)

for _ in range(9, 15)

    _你可以当它是一个变量,但一般习惯不用这个变量。这个循环的作用是循环6次(9,10,11,12,13,14)

语言模型:是计算一个字符串是句子的概率的模型。

1.基于专家系统的语言模型

    缺点:没有一种固定的规则可以归纳所有语言。如“真笑skr人”“雨女无瓜”就不能期待用专家系统来解决。

2.统计语言模型

    P(s) = P(w1,w2,......,wn) = P(w1)P(w2|w1)P(w3|w1,w2).........P(wn|w1,w2,.......,wn-1)

    求解方法:用词语在语料中的频率来作为概率的估算值。

    P(wi)= count(wi)/N      P(wi|wi-1) = P(wi, wi-1)/P(wi-1)= count(wi|wi-1)/count(wi-1)

缺点:

    P(张三很帅) = P(张三)*P(很|张三)*P(帅|张三,很)

    P(张很帅很帅) = P(张很帅)*P(很|张很帅)*P(帅|张很帅,很)

    若语料中只出现了“张三很帅”而没有出现“张很帅很帅”,那么   P(张很帅)*P(很|张很帅)*P(帅|张很帅,很)=0,但是,这只是语料库没有无限大,这句话是有可能出现的,概率不应该为零。

发现问题:

    句子越长,语料中出现这句话的概率就越低,按照公式计算就为0(这与现实相违背),所以我们应该找到一种方式,给与它合理的一个概率。

解决方法:

    平滑处理,就是给那些从来没有在语料中出现过的词或词组一个比较小的概率。

    如Laplace smoothing(拉普拉斯平滑):每个词在原来出现次数的基础上加1

    会导致有的概率变大(从零变到非零),有的概率变小(概率被稀释)

    如:

        A:0    P(A) = 0/1000 = 0      ----->   P(A) = 1/ 1003 = 0.001
        B: 990  P(B) = 990/1000 = 0.99 ----->    P(B)  = 991/1003 = 0.988
        C:10    P(C) = 10/1000 = 0.01  ----->   P(C)   = 11/1003 = 0.011


拉普拉斯平滑后仍存在的问题:
    解决了有些词频过低的问题,但是没有解决有些句子出现频率低的问题。
    
    P(张三很帅) = P(张三)*P(很|张三)*P(帅|张三,很)
    P(张三很桌子) = P(张三) * P(很|张三) * P(桌子|张三,很)

    若语句中只有“张三很美”而没有以上两句话,那么“张三很帅”和“张三很桌子”的概率就是相等的(这不合理,明显“很帅”比“很桌子”出现的频率高)

    问题:
        1.参数空间过大
            我们的最终目的就是训练得到模型,本质上就是的到模型参数。P(wi)    P(wi|w1,w2,.....wi-1) 
                设有句子中有V个词,则:
                    P(w)        ---->V个参数
                    P(wi|wi-1)  ---->V^2个参数
                    P(wi|wi-1,wi-2)----->V^3个参数
                若设句子长度为L,则参数空间为:V+V^2+.....+V^L      (L为句子长度) 
                举个例子:1000个词,最大句子长度20,1000^20这个数太大太大了,不能忍受
        2.数据稀疏严重
            很多参数值为0(其实和参数空间过大是一个问题


解决这些问题:马尔科夫假设
    下一个词的出现仅依赖于前面一个词或n个词
    unigram(1-gram):不依赖   (V)
    bigram(2-gram):依赖之前一个词  (V+V^2)
    trigram(3-gram):依赖前面两个词   (V+V^2+V^3)
    k-gram    :依赖前面k-1个词   (V+V^2+V^3+....+V^k)

--------------------------------------------------------------------------------------------------------------------------------------
如何对比模型的好坏?
    语言模型评价指标:困惑度(Perlexity)
    (语言模型本质上是一个多分类问题,每一个词预测下一个词都有很多种结果)

    
        P(S) = P(w1,w2,......,wn) = P(w1)P(w2|w1).....P(wn|w1,w2,...,wn-1)
困惑度: PP(S) =(P(w1,w2,......,wn))^(-1/n)    
    困惑度越小越好,P(S)越大,对S就越“不困惑”,困惑度就越小
        

 

 

爬虫---->数据处理:拿到数据----->分析数据结构------->总结模板--------->生成结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
转自CCF:https://dl.ccf.org.cn/lecture/lectureDetail?id=4663480272078848。 张勇,剑桥大学博士后。 摘要:健康医疗大数据是健康医疗活动的产物,同时也是进行健康医疗业务优化和辅助决策的基础。健康医疗大数据分散在多个主体管理的多个系统中,所以在应用健康医疗大数据的时候往往需要先进行数据釉合。然而由于生成数据的系统所采用的标准或规范不同,不同来源的数据之间经常存在数据不一致的情况,同时由于应用水平等问题,数据的质量也存在较大问题。数据不一 致和数据质量等问题大大阻碍了数据融合的效率和效果。知识图谱作为作为一种灵活的数据模型,通过一张图来集成所有相关的数据,同时利用对齐等技术来解决数据中存在的问题。本报告将从健康医疗大数据融合的数据模型、过程、工具和应用的角度来介绍如何应用知识图谱来进行健康医疗大数据融合。我们把健康医疗知识图谱分为概念图谱和实例图谱,定义了各 自的数据模型,然后分别介绍了各自的建立过程,以及两者之间如何建立关联。我们提出了“ 医在回路 ”的概念,对医生在构建健康领域知识图谱中的角色和职责进行了定义。基于这些数据模型,我们研发了健康知识图谱构建工具 HKGB 。该工具是一个易于扩展的、跨语言的、智能的知识图谱构建平台。基于该平台,我们构建了面向心血管疾病的知识图谱。最后本报告介绍了健康医疗知识图谱的应用情况。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值