(好吧,这又是一篇软文,适合初学者)
一、通用概念:
1.
有监督学习方法与非监督学习方法:
- 必须要有训练集与测试样本,模型在训练集中寻找规律,训练结束对测试样本使用这种规律进行预测【所有的回归和分类算法都属于监督学习,常见的比如:线性回归(Linear Regression), 多项式回归(Ploynomial Regression)——处理非线性, 岭回归(Ridge Regression),Lasso回归和弹性网络回归(ElasticNet Regression);朴素贝叶斯、决策树、随机森林、集成学习分类版,一些神经网络】。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律(比如聚类算法)。
- 有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。
- 非监督学习在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。
这一点是比有监督学习方法的用途要广。 譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于非监督学习方法的范畴。
- (简而言之,有训练样本的,训练集有输入有输出,就是监督型学习)。 包括所有的回归算法分类算法,比如线性回归 决策树 神经网络。无监督学习一般指的是聚类算法,我们事先不知道样本的类别,通过某种办法,把相似的样本放在一堆。
训练集只有输入没有输出是无监督,包括所有的聚类算法,比如k-means PCA gmm等
半监督学习:
在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。
2.泛化:
当某一反应与某种刺激形成条件联系后,这一反应也会与其它类似的刺激形成某种程度的条件联系,这一过程称为泛化——换句话说,模型适应未知数据的能力。
3.过拟合和欠拟合:
过拟合和欠拟合是机器学习算法表现差的两大原因:
过拟合:当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据,从而导致模型泛化性能的变差。
随着时间进行,算法不断地学习,模型在训练数据和