序言
记录机器学习基本概念,不做详细解释,常识积累。长期更新…
# 监督学习
- 监督学习:数据有label,主要是分类和回归两种方法
- 监督学习的任务是学习一个模型,对输入做一个好的预测
# 无监督学习
- 无监督学习:数据无label,主要是降维和聚类
- 无监督学习对数据直接进行建模,事先不知道输入数据的输出结果是什么
# 迁移学习
- 将某个领域或任务上学到的知识或模式应用到不同但相关领域的问题中
- 问题来源:监督学习要求数据同分布且完成数据标注,数据分布的差异和数据标注过期问题(主要是数据分布差异),如何更好的利用之前标注好的数据,保证新任务的模型精度,由此引入迁移学习的研究
# 分类
- 根据样本特征判断其属于有限类别中的哪一个;二分类问题,多分类问题
# 回归
- 根据样本特征预测一个连续值的结果;房价,票房,股票预测等
# 聚类
- 根据样本取出的特征让样本抱团、划分成不同的簇;新闻分类,用户群体划分等
# 过拟合
- overfitting. 对训练集性能很好,对测试集性能很差。即对训练集过拟合,泛化能力差
- 解决方法:正则化;增加训练数据集等
# 欠拟合
- underfitting. 学到的模型过于简单
- 解决方法:引入多项式;使用复杂模型等
# 权重weight
- 表示神经元之间的连接强度,权重的大小表示可能性的大小
# 偏置bias
- 偏置项,二维:直线斜截式方程y=kx++b;三维:一个决策面。偏置的设置是为了正确分类样本
# CNN
- Convolutional Neural Network,卷积神经网络
# DNN
- Deep Neural Network,深度神经网络
- 可以理解为有多个隐藏层的神经网络,至于多少隐藏层没有定论
# RNN
- Recurrent Neural Network,循环神经网络
- 是递归神经网络Recursive Neural Network的特例
- 递归神经网络:包括结构递归神经网络和时间递归神经网络,狭义上讲递归神经网络指结构递归神经网络,时间递归神经网络则称为循环神经网络