NLP中数据集(语料库)中的概率统计方法
一、NLPNLPNLP中的一维随机变量XXX的概率分布统计方法:
假设我们的语料库为一个字符串:str=‘abcaaba’str = ‘abcaaba’str=‘abcaaba’
那么XXX的可能取值为:X=a,X=b,X=cX=a,X=b,X=cX=a,X=b,X=c
我们假设有一个滑动窗口,窗口的大小为1个字母(在不同任务中可以为字母、单词、词组等粒度)。
每当滑动到一个字母时,判断该字母在不在词表中(词表即为随机变量X可能的取值),如果在词表中,说明滑动窗口之前遍历过该字母,那么将该字母出现的次数+1
原创
2020-06-22 16:30:21 ·
1179 阅读 ·
0 评论