1 监督学习 :给定一组数据,知道正确的输出结果是什么样子,在输入和输出之间有特定的关系
样本集:训练数据+测试数据
训练样本:特征 + 目标变量
特征:训练样本集的列,独立测量得到
目标变量:机器学习预测算法测试所得的结果
2 非监督学习 :在未加标签的数据中,找到隐藏的结构。没有错误或信号来评估潜在的解决方案
聚类:将数据集分成类似的对象组成的多个类的过程
密度估计:通过样本分布的紧密程度,估计与分组的相似性
3 训练过程:
4 常见的算法:监督学习:k-近邻算法、朴素贝叶斯算法、支持向量机、决策树
无监督学习:K-均值、DBSCAN
5 模型拟合程度:
欠拟合:模型没有很好的捕捉到数据的特征,对于训练样本的一般性质尚未学好
过拟合:模型学习的’太好了‘,把某些训练样本的本身的特征也当作所有潜在样本的一搬性 质, 泛化能力下降
6 常见的模型指标:
正确率 -----提取出的正确的信息条数/提取出的信息条数
召回率------提取出的正确的信息条数/样本中的信息条数
F值 ------ 正确率*召回率/(正确率+召回率)
7 常见模型:
分类:将一些未知类别的数据分到现在已知的类别中去
回归:对数值型连续随机变量进行预测和建模
聚类问题: 无监督学习,基于数据的内部结构寻找观察样本的自然族群。
一般由 簇内距离与簇间距离描述。
簇内距离(intra-cluster distance) 和 簇间距离(inter cluster distance)
簇内距离越小越好,簇间距离越大越好