机器学习分类问题及常用算法总结
机器学习学习研究计算机如何模仿人类的学习行为,获取新知识或经验,并重新组织已有的知识结构,提高自身的表现。主要分为:
1、监督学习:数据输入对象会预先分配标签,通过数据训练出模型,然后利用模型进行预测。
2、无监督学习:重点在于分析数据的隐藏结构,发现是否存在可区分的组或集群。
3、半监督学习:利用少量的标记数据和大量的未标记数据进行训练和分类。
基于统计的文本分类算法
1、支持向量机(SVM)
该方法时建立在统计学习理论的基础上的机器学习方法,通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以使类与类之间的间隔最大化,有较好的适应能力和分类效率。
2、朴素贝叶斯
朴素贝叶斯方法的分类思想比较简单,且应用普遍,此方法利用贝叶斯公式通过类别的先验概率和词的分布来计算未知文本属于哪一类别的概率,运用朴素贝叶斯算法进行分类时,要假设样本的特征项之间没有联系,这种假设带来的好处是,减少不必要的计算,与此同时,也导致分类器的结果不理想,分类性能较差。
3、神经网络
神经网络是在模仿人脑处理问题过程中发展起来的一种新型智能信息处理理论,它采用大量的简单处理单元即神经元来处理信息,对大脑的形象思维、联想记忆等进行抽象和模拟