python online ide 自然语言_Python + 自然语言 + 分类

最新推荐文章于 2023-06-25 15:15:00 发布

博boob博

最新推荐文章于 2023-06-25 15:15:00 发布

阅读量301

点赞数

文章标签： python online ide 自然语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34544513/article/details/114911846

版权

两点前置知识

词袋法(词袋模型，bag of words)：忽略文本中的词序、语法等信息，将文本视作词的集合，每一个词均为独立的，不依赖于其他词是否出现。这种情况下，一般是计算词出现的频率。

马尔科夫模型：如果单单照词袋法不去关心词与词的关系，则有很大问题，所以词与词的关系也开始考虑进去，但一句话中词太多，如果考虑所有词一同出现的概率，会太过复杂，于是马尔科夫模型就假定，每一个词只与前若干个词有关。这也称做N-gram模型。当假定与前一个词相关时，为Bi-gram(n=2)，假定与前两个词相关时，为Tri-gram(n=3)。

N是否越大越好？

《Language Modeling with Ngrams》使用了 Perplexity 这一指标，该指标越小表示一个语言模型的效果越好。直观上讲，n越大，依赖的词越多，信息量就越多，预测也就越准确，但是如果n太大，则会导致有些n-gram没有出现过，这是稀疏(Sparsity)问题。也就是说，当一个句子中分词的每个组合出现的几率在语料库中都为0的话，意味着整个句子的出现概率为0，而n越大，出现0概率的句子的数目就越多，最后导致大部分的句子的概率都为0，这个不合常理。所以一般n取2-3较为合理和可信。

Python包的实现

在sklearn.feature_extraction.text中存在CountVectorizer的类，实现了tokenization (词语切分)和 occurrence counting (出现频数统计)，并且可以使用n-gram。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python online ide 自然语言_Python + 自然语言 + 分类

两点前置知识词袋法(词袋模型，bag of words)：忽略文本中的词序、语法等信息，将文本视作词的集合，每一个词均为独立的，不依赖于其他词是否出现。这种情况下，一般是计算词出现的频率。马尔科夫模型：如果单单照词袋法不去关心词与词的关系，则有很大问题，所以词与词的关系也开始考虑进去，但一句话中词太多，如果考虑所有词一同出现的概率，会太过复杂，于是马尔科夫模型就假定，每一个词只与前若干个词有关。这...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。