机器学习的理论很深奥,但应用起来是比较简单的。
不管你想用贝叶斯、神经网络、SVM、决策树、线性回归,还是其他什么机器学习方法。你首先要关注两点:
1.选择训练样本
选择正例和反例的样本;如果是多类,那么每类都要选择样本。选择恰当的正反类分类标准,是保证分类满足需求的一个必要条件。 选择样本需要特别注意,样本要比较平均,正反类比例要恰当。
2.选择分类特征
选择影响分类的特征。例如要对欧洲人、亚洲人做分类,那么我们可以选择皮肤的颜色、眼睛的颜色、语言、身高、体重作为分类的特征。 选择的特征可以尽量多,如果特征太多,我们还可以使用特征选择的方法,来减少特征(降维)。特征选择的方法包括KL变换,最大墒,svm或者gbdt特征选择等。
选好了分类的特征,那么我们要做的就是找一个合适的分类方法。比如贝叶斯或者svm等。如果数据很丰富,那么我们可以选择贝叶斯分类方法;如果数据很少,可以选择svm或者gbdt等方法。
选择特定的分类方法一定要分析数据。例如分析数据是否符合正态分布?两组数据是否正相关?选择特定的方法都必须要有数据分析来支撑。
如果要深入理解模式分类,那还是得学习相关的理论了。