UoG Text as Data Lecture4

最新推荐文章于 2021-11-03 21:50:39 发布

JYY_JYY_

最新推荐文章于 2021-11-03 21:50:39 发布

阅读量181

点赞数

分类专栏： Text As Data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41157876/article/details/105132448

版权

Text As Data 专栏收录该内容

6 篇文章 2 订阅

订阅专栏

Language Models

目的：Predict the probability of a sentence or sequence of words in a document. 预测某个单词在某个句子中或者某个句子在某个文档中出现的概率

应用场景：

定义

定义： something that specifies the following two quantities, for all words in the vocabulary

1. Direct MLE估计

假设单词a和单词b

P（a|b）= Count(ab)/Count(b) eg：P（jams | traffic）= traffic jams出现次数/ traffric出现次数

扩展到N元： Pr(dogs | I love cats and) = Count(I love cats and dogs) / Count(I love cats and)

所以某句话出现的概率可以表示为：

P(the weather is snowy outside) = P(the) * P(weather | the) * P(is | the weather) * P(snowy | the weather is) * P(outside | the weather is snowy)

2. Markov Assumption马尔可夫假设

马尔科夫假设：一个单词出现的概率依赖于前面单词出现的概率

3. N-gram Sequence Model

Unigram：不考虑前后单词，只考虑自己出现的概率。效果：Not very good at modeling a sequence，因为荒谬的短语或句子可能会很容易出现。

Bi-grams：Next word is dependent on the previous word alone

以此类推

4. Smoothing平滑

如果一个单词aaaaaaaa从来没在语料库里出现过：eg. Pr(frog said that toad likes frog aaaaaaaa)，那么这句话的概率就是0，这显然是不对的。

解决方法：Smoothing：assign a low (non-zero) probability to words or n-grams not observed in the text collection (training data)防止零概率的语法影响计算，为零概率的词分配非零的较低概率

1) Laplace平滑 =>所有单词概率下降，0概率上升

$\large P = \frac{Count(term)}{N}$ ------------> $\large P_{Laplace} = \frac{Count(term)+1}{N + V}$

eg.

t表示term， N为整篇文章的单词数，V为|V|，但是+1平滑往往效果不理想，虽然很常用，原因参照：

于是有了Add-k方法

$\large P_{Laplace} = \frac{Count(term)+1}{N + V}$ --------------->

eg.

2) Interpolated平滑，插值法

3) Backoff回退法

eg. 如果 P（you | I love）== 0

则 P（you | I love）= P（you | love），如果 P（you | love）也==0，

则 P（you | I love） = P（you）

4)Good-Turning 打折法

例如： Witten-Bell 打折法， Kneser-ney 平滑法

5）Reference

这篇文章讲得很详细，比教科书还细

https://panxiaoxie.cn/2018/04/12/chapter4-%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%92%8CN%E5%85%83%E8%AF%AD%E6%B3%95/

5. Evaluation评估

都说trigram model要比bigram model要好，可是怎么界定好？

1）Extrinsic外在评估：measure performance on downstream application

用应用去测评性能，比如用这两个模型分别跑某个train dataset，看准确率

2）Intrinsic内在评估：design a measure inherent to the current task

一个指标是entropy，越小表示这个东西越确定。

对于两个东西（预测和groud truth）而言，用cross-entropy

cross-entropy >= entropy，因为模型预测的熵>=真实情况的熵

一个很好的例子帮助理解：这句话用bigram model预测出来的熵是6，比unigram预测出来的11要小，说明确定性更大，更接近真实ground truth

一个较好的指标是 perplexity 困惑度

困惑度越低，信息量越大，越确定。

6. Document Language Model

P代表每个term在这个doc中的频率（概率）

Dirichlet 平滑

Pr（t）：单词t的先验概率

u：通常1000到2500

7.Probabilistic similarity

1)Kullback–Leibler (KL) Divergence 相对熵

KL散度：用来衡量两个分布的差异

原概率分布为P（x），近似概率分布为Q（x）

性质：Dkl >= 0 非负。如果Dkl =0，则说明两个概率分布相同

但是应用到两个document的相似度会出现问题：

对于frog来说，它没出现在d2中，所以会变成log2(无穷大)，所以需要smoothing

2）Jensen-Shannon (JS) Divergence JS散度

计算d1对d2的KL散度和d2对d1的KL散度，分别配上不同权重

8.为什么用language model

检验how likely is it that two documents come from the same distribution，而并非计算两个docyment的consine similarity

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

JYY_JYY_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

146: 原创

24万+: 周排名

4万+: 总排名

6万+: 访问

: 等级

2016: 积分

222: 粉丝

232: 获赞

40: 评论

353: 收藏

私信

关注

热门文章

分类专栏

笔记提纲 6篇
设计模式 20篇
计算机基础 4篇
网络通信 4篇
分布式 1篇
java 12篇
LeetCode 11篇
JAVA多线程 12篇
JVM 6篇
Redis 14篇
MySQL 8篇
Spring 6篇
idea
netty 7篇
ERROR 4篇
kafka 3篇
算法方向 1篇
力扣 1篇
复习 1篇
SSM 4篇
Mybatis 1篇
Text As Data 6篇
Big Data
l
LINUX 6篇

最新评论

Java日志体系概述
百锦再@新空间代码工作室: 这篇《Java日志体系概述》的文章真是驾轻就熟地揭开了Java日志体系的神秘面纱，让人如沐春风般畅快淋漓地领略到其中的奥妙与精髓。作者无疑是一位精湛的大师，用铿锵有力的文字和清晰深入的分析，为读者呈现出一个完整而生动的图景，让人不禁为其深厚的学识和卓越的表达技巧而佩服不已。这样一篇文章，无疑是每个Java开发者必读之作，值得珍藏和细细品味。愿更多人能够在这篇文章中找到启迪与指引，不断提升自己的技术水平，为Java编程世界增添更多精彩的色彩！
Java stream相关案例记录
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
《深入理解kafka-核心设计与实践原理》
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
《深入理解kafka-核心设计与实践原理》第一章：概念
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
《从Paxos到Zookeeper》——第五、六章：经典应用场景
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。