python online ide 自然语言_Python + 自然语言 + 分类

两点前置知识

词袋法(词袋模型,bag of words):忽略文本中的词序、语法等信息,将文本视作词的集合,每一个词均为独立的,不依赖于其他词是否出现。这种情况下,一般是计算词出现的频率。

马尔科夫模型:如果单单照词袋法不去关心词与词的关系,则有很大问题,所以词与词的关系也开始考虑进去,但一句话中词太多,如果考虑所有词一同出现的概率,会太过复杂,于是马尔科夫模型就假定,每一个词只与前若干个词有关。这也称做N-gram模型。当假定与前一个词相关时,为Bi-gram(n=2),假定与前两个词相关时,为Tri-gram(n=3)。

N是否越大越好?

《Language Modeling with Ngrams》使用了 Perplexity 这一指标,该指标越小表示一个语言模型的效果越好。直观上讲,n越大,依赖的词越多,信息量就越多,预测也就越准确,但是如果n太大,则会导致有些n-gram没有出现过,这是稀疏(Sparsity)问题。也就是说,当一个句子中分词的每个组合出现的几率在语料库中都为0的话,意味着整个句子的出现概率为0,而n越大,出现0概率的句子的数目就越多,最后导致大部分的句子的概率都为0,这个不合常理。所以一般n取2-3较为合理和可信。

Python包的实现

在sklearn.feature_extraction.text中存在CountVectorizer的类,实现了tokenization (词语切分)和 occurrence counting (出现频数统计),并且可以使用n-gram。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值