问一个关于NLP中N-gram的问题,急急急

N-gram 专栏收录该内容
1 篇文章 0 订阅

背景说明

最近是毕业季,而我的毕设题目是文本可视化分析,其中就用到了自然语言处理中的N-gram。

要求是这样的

统计每一个文本中单词的bigram出现的频率,选择了前1500个高频单词的bigram作为特征向量

我觉得难以实现的是

如何统计每一个词的bigram概率

我是这样理解的,但老师说不对

如:句子 S=“我在西安上大学”
那么“大学”的概率就是,P(“大学”|S)=1/6
即,首先把句子分为:我在、在西、西安、安上、上大、大学。
大学出现了一次,所以就是1/6。

老师的意思好像是先把句子分词:“我 在 西安 上 大学”,
然后以分好的词为单位计算bigram,我觉得老师说的不对,而且修改挺麻烦的

大神求解

  • 0
    点赞
  • 0
    评论
  • 0
    收藏
  • 打赏
    打赏
  • 扫一扫,分享海报

©️2022 CSDN 皮肤主题:大白 设计师:CSDN官方博客 返回首页

打赏作者

屋大维-甘地

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值