机器学习分类
机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能。——Tom Mitchell
众所周知,现在我们已经进入大数据时代,所谓的数据者得天下。一方面我们要积极主动的获取有价值的用户数据,另一方面面对海量的数据,我们要将他的价值最大化,就要对数据进行多维度,不同深度的挖掘。本文对机器学习做一些简单的分类.
机器学习涉及到的问题主要分为:关联问题、分类问题、聚合问题、回归问题。下面分别讨论:
关联问题:
关联问题时计算两件事物的相关性,通常通过对海量历史数据处理来计算。
这类包括著名的啤酒和尿布的问题。超市物品摆放邻近或组合物品,可以最大化的刺激消费。
分类问题:
分类问题根据类品的数量一般分为二分类和多分类。比如某些机构会通过球员的历史数据,预测两个球队得输赢情况、某个人是否会购买某一件商品、地震预测等等都属于二分类问题;而根据人物信息对某一些人进行区域识别,是属于北京、上海还是西安等这类术语多分类问题。生活中较多涉及的是二分类。
聚合问题:
正所谓人以类聚,物以群分,比如某金融机构推出新的金融产品,需要推送给特定客户群体,就需要通过历史数据对客户分类,以准确推送目标客户。
回归问题:
利用历史数据对未来某一段时间股价、房价进行预测评估等。这类问题往往根据一定的历史数据对某一个指定条件下的目标预测一个实数值。
按照学习方式又分为:有监督学习(supervised learning)、非监督式学习(unsupervised learning)、半监督式学习(semi-supervised learning)、强化学习(reinforcement learning)
监督学习:
在监督学习模式下,每组数据都有一个明确的标志或结果,如人按地区分类中的“上海”、“北京”等地域标识。在建立预测模型的时候,监督学习建立一个学习过程,将预测结果和数据真实的属性结果进行对比,不断调整预测模型。直到预测模型达到一个预期的准确率。
上述示例中的分类问题和回归问题都属于监督学习范畴。其中常用的分类算法包括:决策树分类法(Decision Tree),朴素贝叶斯分类算法(Native Bayesian Classifier)、基于支持向量机(SVM)的分类器、神经网络法(Neural Network)、k-最近邻法(k-nearest neighbor,kNN)等。
非监督式学习:
在非监督式学习中,数据并不被标识,学习模型是为了推断出数据的一些内在结构。前面四个示例中的关联问题和聚类问题属于非监督学习的范畴。关联问题中常见算法包括Apriori(该算法基于Spark的并行化算法)、FP-Growth以及Eclat等,而聚类问题中最经典的算法当属k-Means。
半监督式学习(semi-supervised learning)
在半监督式学习学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。
强化学习(reinforcement learning)
在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)