N-Gram document Classifier

最新推荐文章于 2024-08-18 19:53:43 发布

祁斌川

最新推荐文章于 2024-08-18 19:53:43 发布

阅读量92

点赞数

分类专栏： NLP 文章标签：技术自然语言机器学习

本文链接：https://blog.csdn.net/qibinchuan/article/details/40396383

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

基本原理

将文本集看看作一个矩阵，每篇文档看成有不同的N-Gram构成。以bi-gram为例，若汉字采用GB 2312-80字符集，则将会由6736*6736个不同的bi-gram，即矩阵的列为6736*6736。如此大的列数，实际处理中，往往通过Hash-Coding的方式进行压缩。矩阵中的任一元素aij 表示第i篇文档的第j个bi-gram，其值的大小为该bi-gram出现的次数。这种表示方式作为特征用于分类即为N-Gram Classifier。另外提一句，两篇文档的向量越相似，两篇文档的主题相似程度越高。