NLP笔记（一）

sam-X

于 2017-04-25 17:26:26 发布

阅读量551

点赞数

分类专栏：机器学习深度学习文章标签： peplexity trigram

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010945683/article/details/70750112

版权

机器学习同时被 2 个专栏收录

30 篇文章

订阅专栏

14 篇文章

订阅专栏

来源：Cousera哥大自然语言处理课程

一阶马尔科夫过程

P (X 1 = x 1, X 2 = x 2, . . ., X n = x n) = P (X 1 = x 1) \sum i = 2 n P (X i | X 1, X 2, . . ., X i - 1) = P (X 1 = x 1) \sum i = 2 n P (X i | X i - 1)

$\begin{equation}\begin{split} &P(X_1=x_1,X_2=x_2,...,X_n=x_n)\\ &=P(X_1=x_1)\sum_{i=2}^{n}P(X_{i}|X_{1},X_{2},...,X_{i-1})\\ &=P(X_1=x_1)\sum_{i=2}^{n}P(X_{i}|X_{i-1}) \end{split}\end{equation}$

二阶马尔科夫过程

P (X 1 = x 1, X 2 = x 2, . . ., X n = x n) = P (X 1 = x 1) P (X 2 = x 2 | X 1 = x 1) \sum i = 3 n P (X i | X i - 2 = x i - 2, X i - 1 = x i - 1) = \sum i = 1 n P (X i | X i - 2 = x i - 2, X i - 1 = x i - 1)

$\begin{equation}\begin{split} &P(X_1=x_1,X_2=x_2,...,X_n=x_n)\\ &=P(X_1=x_1)P(X_2=x_2|X_1=x_1)\sum_{i=3}^{n}P(X_{i}|X_{i-2}=x_{i-2},X_{i-1}=x_{i-1})\\ &=\sum_{i=1}^{n}P(X_{i}|X_{i-2}=x_{i-2},X_{i-1}=x_{i-1}) \end{split}\end{equation}$
设 $X_{-1}=X_{0}=*$ ，表示开始标志

三元语言模型

example

The Trigram Estimation Problem

混淆度(Perplexity)

Perplexity

这里写图片描述

Perplexity is a measure of effective “branching factor”

偏差&方差权衡

Why

这里写图片描述

Unigram & Bigram converge quickly to its true underlying value.
Trigram has low bias, but need large datasets to get an accurate estimate to avoid “ZERO”.

Linear Interpolation

这里写图片描述

Estimate The λ Values

这里写图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。