一、什么是机器学习?
人类的学习:经验+不断提高技能
机器的学习:数据+不断提高“技能”(此处的技能可以是:计算机系统、程序、算法等)
机器学习的定义:假设用P来评估计算机程序在某任务T上的性能,若一个程序通过利用经验E在T任务上获得性能提升,则我们就说关于T和P,该程序对E进行了学习。
机器学习还有其他的一些通俗定义,但总的来说就是计算机+经验+改善性能,从而产生“模型”用于对新的数据进行判断。
二、基本概念
训练集:用于机器学习的输入,获取“经验”
学习算法:不同的场景会用到不同的学习算法
模型:通过设定好的学习算法和训练集得出的针对某一问题的解决办法
测试集:用于对模型的评估,测试模型解决某一问题的效果
三、应用领域
模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理等
四、人工智能、机器学习与深度学习的关系
人工智能:机器展现的人类智能
机器学习:计算机利用以后的数据(经验),得出的某种模型,并预测未来新数据的一种方法
深度学习:实现机器学习的一种技术
五、发展历程
1950-1956:图灵发表《计算机器与智能》,提出并尝试回答“机器能否思考”。达特茅斯会议,首次定义了概念--人工智能
1956-60/70年代:平静期
70-80年代:推理期
80-90年代:知识期
90-2006年:学习期
直到现在:蓬勃发展期
六、发展趋势
鲁棒性:T.Dietterich强调:随着人工智能技术的发展,越来越多地面临高风险应用,因此人工智能必须要有“鲁棒性”(也就是更正错误的鲁棒)。
泛化性:应用于新的样本数据,也能取得较好的效果。(这是难点也是重点)
可解释性:对模型内部机制的理解和模型结果的理解。
发展趋势:小样本学习 and 感知智能->认知智能
七、机器学习的类型
监督学习(有标签Y):回归、K近邻、SVM、决策树、朴素贝叶斯、逻辑回归、XGBoost、Lightgbm
无监督学习(无标签Y):聚类、降维算法、EM算法
强化学习(序列决策):马尔科夫决策方法
八、机器学习的一般步骤
数据搜集:数据集的获取方式有很多
数据清洗:错误数据,重复数据等的清理
特征工程:特征提取,在原始数据中提取并创建新特征;特征选择,留下最重要的特征
数据建模:选择指标最佳的机器学习模型进行参数优化,最后得出最佳结果
九、拟合
欠拟合:对训练集都拟合不好,对测试集自然也不佳
较好拟合:对训练集拟合较好,对测试集也较好
过拟合:对训练集拟合过好,对测试集拟合不好
十、需要掌握的python模块
numpy
pandas
scipy
matplotlib
scikit-learn