1、词袋模型
认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。
2、N-gram模型
引入了词与词之间的顺序。
这个N是一个超参数。
1、一般能用2-gram尽量用2-gram。
2、平时3-gram用的多。
3、n>=4的情况很少,在有特别多语料时可以尝试到5-gram
认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。
引入了词与词之间的顺序。
这个N是一个超参数。
1、一般能用2-gram尽量用2-gram。
2、平时3-gram用的多。
3、n>=4的情况很少,在有特别多语料时可以尝试到5-gram
转载于:https://www.cnblogs.com/Yolanda7171/p/7242369.html