1、词袋模型
认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。
2、N-gram模型
引入了词与词之间的顺序。
这个N是一个超参数。
1、一般能用2-gram尽量用2-gram。
2、平时3-gram用的多。
3、n>=4的情况很少,在有特别多语料时可以尝试到5-gram
本文介绍了自然语言处理中两种重要的模型:词袋模型和N-gram模型。词袋模型忽略词语间的顺序,视词语为独立个体;N-gram模型则考虑了词语间的顺序信息,通常使用2-gram或3-gram。文章还讨论了不同N值的应用场景。
认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。
引入了词与词之间的顺序。
这个N是一个超参数。
1、一般能用2-gram尽量用2-gram。
2、平时3-gram用的多。
3、n>=4的情况很少,在有特别多语料时可以尝试到5-gram
3411
1339
842
1494

被折叠的 条评论
为什么被折叠?