传统机器学习
1 贝叶斯
朴素贝叶斯的原理:
基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类模型,将其保存为中间结果,测试文档进行分类时调用这个中间结果得出后验概率
贝叶斯文本分类代码实现参考:
https://blog.csdn.net/csqazwsxedc/article/details/69488938
2 SVM
SVM原理:
Svm(support Vector Mac)又称为支持向量机,是一种二分类的模型。当然如果进行修改之后也是可以用于多类别问题的分类。支持向量机可以分为线性核非线性两大类。其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本本集中所有数据到这个超平面的距离最短。
SVM文本分类代码实现参考:
https://blog.csdn.net/orlandowww/article/details/52966608
3 LDA
什么是LDA?
- LDA是一种无监督的贝叶斯模型。
- LDA是一种主题模型,它可以将文档集中的每篇文档按照概率分布的形式给出。
- LDA是一种无监督学习,在训练时不需要手工标注的训练集,需要的是文档集和指定主题的个数。
- LDA是一种典型的词袋模型,它认为一篇文档是由一组词组成的集合,词与词之间没有顺序和先后关系。
LDA文本分类代码实现参考:
https://www.jianshu.com/p/e83af84ca243