一、 N L P NLP NLP中的一维随机变量 X X X的概率分布统计方法:
假设我们的语料库为一个字符串: s t r = ‘ a b c a a b a ’ str = ‘abcaaba’ str=‘abcaaba’
那么 X X X的可能取值为: X = a , X = b , X = c X=a,X=b,X=c X=a,X=b,X=c
我们假设有一个滑动窗口,窗口的大小为1个字母(在不同任务中可以为字母、单词、词组等粒度)。
每当滑动到一个字母时,判断该字母在不在词表中(词表即为随机变量X可能的取值),如果在词表中,说明滑动窗口之前遍历过该字母,那么将该字母出现的次数+1,如果不在词表中,那么将该字母出现次数置为1(在滑动窗口中首次出现),当遍历完整个语料,我们会得到频率表:
X X X | a a a | b b b | c c c |
---|---|---|---|
c o u n t count count | 4 4 4 | 2 2 2 | 1 1 1 |
记录的 w o r d — s u m word_—sum