目录
一、机器学习分类:
准则1:是否在人类监督下进行训练
①监督学习:在监督学习中,用来训练算法的训练数据包含了答案,称为标签
典型实例:分类、预测
重要算法:K近邻算法、线性回归、逻辑回归、支持向量机(SVM)、决策树和随机森林、
神经网络
②非监督学习:在非监督学习中,你可能猜到了,训练数据是没有加标签的
典型实例:检测相似访客分组、可视化算法、降维、异常检测、关联规则学习
重要算法:
- 聚类:K 均值、层次聚类分析(Hierarchical Cluster Analysis,HCA)、期望最大值
- 可视化和降维:主成分分析(Principal Component Analysis,PCA)、核主成分分析、局部线性嵌入(Locally-Linear Embedding,LLE)、t-分布邻域嵌入算法(t-distributed Stochastic Neighbor Embedding,t-SNE)
- 关联性规则学习:Apriori 算法、Eclat 算法
③半监督学习:一些算法可以处理部分带标签的训练数据,通常是大量不带标签数据加上小部分带标签数据
典型实例:深度信念网络
④强化学习:学习系统在这里被称为智能体(agent),可以对环境进行观察,选择和执行动作,获得奖励(负奖励是惩罚,见图 1-12)。然后它必须自己学习哪个是最佳方法(称为策略policy),以得到长久的最大奖励。策略决定了智能体在给定情况下应该采取的行动。
准则2:它是否能从导入的数据流进行持续学习
①批量学习:系统不能进行持续学习:必须用所有可用数据进行训练(通常会占用大量
时间和计算资源)
②在线学习:是用数据实例持续地进行训练,可以一次一个或一次几个实例(每个学习步骤都很快且廉价,所以系统可以动态地学习到达的新数据)
准则3:判断它们是如何进行归纳推广的
①基于实例学习:系统先用记忆学习案例,然后使用相似度测量推广到新的例子
②基于模型学习:从样本集进行归纳的方法是建立这些样本的模型,然后使用这个模型进行预测
二、机器学习主要挑战
①训练数据量不足
②没有代表性的训练数据
③低质量数据
④不相关的特征
⑤过拟合训练数据:模型在训练数据上表现很好,但是推广效果不好(解决方法:正则化)
⑥欠拟合训练数据:模型过于简单