3-1 机器学习工作流程
机器学习工作流程
小总结:
1.1956年 AI元年 达特茅斯会议
图灵–“图灵测试”
2.CPU与GPU
1,CPU擅长逻辑控制,GPU擅长的是大规模并发计算
2,内部结构:核数目,ALU数量及配置不同
3,机器学习 vs 深度学习
1,深度学习人为干预更少(特征提取)
2,深度学习网络,层数更多
4,机器学习流程:
1,数据集》数据预处理》特征工程》训练模型》评估
2,统计图表,可视化
5,箱线图:
1,画一只箱子,箱子的两端分别位于第一个和第三个四分位上。
2,在箱子中位数的位置画一条垂直线。
3,箱线图的上、下限制线分别在比Q1低1.5(IQR)和比Q3高1.5(IQR)的位置上
4,确定触须线之外的异常值。
6,回归问题:
1,预测数字
2,评估方式:误差平方和;误差绝对值之和;R**2,
分类问题:
1.预测类别
2,精确度P,召回度R,F分数,ROC曲线,AUC面积
7,机器学习算法分类:
1,有监督学习:有标签,回归,分类(微观,特例)
2,无监督学习:无标签,异常检测,相似性挖掘,发现内在关系(整体)
3,半监督学习:一部分有标签,一部分没有标签
4,强化学习:实质是make decisions问题,即自动进行决策,并且可以连续决策希望一段时间后获得最多的累计奖励。
8.强化学习和监督学习的区别:训练输入特征间关系,反馈时间,反馈内容
监督,半监督,无监督的区别:训练样本包含标签的程度
模型评估 ROC曲线 的理解
欠拟合:在训练和测试中变现都不好
过拟合:在训练中表现很好,在测试中变现不好。
噪声对于过拟合的影响 特别大
噪声对过度拟合的影响
一、欠拟合和过拟合:
欠拟合:所建的学习模型在训练集和测试集中变现都不好。
改善方法:增加或组合特征来改善
过拟合:所建的学习模型在训练中变现很好,在测试中变现不好。
改善方法:增加并清洗数据(减少噪声),减少维度。
维灾难:下图有欠拟合到过拟合的 过程
维灾难与过拟合: