NLP中数据集（语料库）中的概率统计方法

原创

于 2020-06-22 16:30:21 发布

· 1.3k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #数据挖掘

本文介绍了NLP中一维和高维随机变量的概率分布统计方法。通过滑动窗口技术和频率表，计算了字母级别的单个及联合概率分布，并解释了如何归一化得到概率分布。这种方法适用于不同粒度的数据，为条件概率和边缘概率的计算奠定了基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、 $N L P$ 中的一维随机变量 $X$ 的概率分布统计方法：
假设我们的语料库为一个字符串： $s t r = ‘ a b c a a b a ’$
那么 $X$ 的可能取值为： $X = a, X = b, X = c$
我们假设有一个滑动窗口，窗口的大小为1个字母（在不同任务中可以为字母、单词、词组等粒度）。
每当滑动到一个字母时，判断该字母在不在词表中（词表即为随机变量X可能的取值），如果在词表中，说明滑动窗口之前遍历过该字母，那么将该字母出现的次数+1，如果不在词表中，那么将该字母出现次数置为1（在滑动窗口中首次出现），当遍历完整个语料，我们会得到频率表：

$X$	$a$	$b$	$c$
$c o u n t$	$4$	$2$	$1$

记录的 $word_—sum$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。