一种方法是使用朴素贝叶斯方法(更高级可以用费舍尔方法),但是特征需要自己提取,如果只是看其中关键词,似乎还用不上词频,另一种可以使用文本的term vector(也可以是其他特征向量),先把不同分类的特征向量计算出来(可以直接累加),然后计算向量夹角,看离哪个更近或者确定阈值即可判断,这种方法在确定文档相似性时经常用到.
文本分类的两种方法
最新推荐文章于 2022-07-26 11:22:44 发布
一种方法是使用朴素贝叶斯方法(更高级可以用费舍尔方法),但是特征需要自己提取,如果只是看其中关键词,似乎还用不上词频,另一种可以使用文本的term vector(也可以是其他特征向量),先把不同分类的特征向量计算出来(可以直接累加),然后计算向量夹角,看离哪个更近或者确定阈值即可判断,这种方法在确定文档相似性时经常用到.