NLP中数据集(语料库)中的概率统计方法

本文介绍了NLP中一维和高维随机变量的概率分布统计方法。通过滑动窗口技术和频率表,计算了字母级别的单个及联合概率分布,并解释了如何归一化得到概率分布。这种方法适用于不同粒度的数据,为条件概率和边缘概率的计算奠定了基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、 N L P NLP NLP中的一维随机变量 X X X的概率分布统计方法:
假设我们的语料库为一个字符串: s t r = ‘ a b c a a b a ’ str = ‘abcaaba’ str=abcaaba
那么 X X X的可能取值为: X = a , X = b , X = c X=a,X=b,X=c X=a,X=b,X=c
我们假设有一个滑动窗口,窗口的大小为1个字母(在不同任务中可以为字母、单词、词组等粒度)。
每当滑动到一个字母时,判断该字母在不在词表中(词表即为随机变量X可能的取值),如果在词表中,说明滑动窗口之前遍历过该字母,那么将该字母出现的次数+1,如果不在词表中,那么将该字母出现次数置为1(在滑动窗口中首次出现),当遍历完整个语料,我们会得到频率表:

X X X a a a b b b c c c
c o u n t count count 4 4 4 2 2 2 1 1 1

记录的 w o r d — s u m word_—sum

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值