机器学习概述
1.1 人工智能概述
达特茅斯会议-人工智能的起点
1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,约翰·麦卡锡(John McCarthy)、马文·闵斯基(Marvin Minsky,人工智能与认知学专家)、克劳德·香农(Claude Shannon,信息论的创始人)、艾伦·纽厄尔(Allen Newell,计算机科学家)、赫伯特·西蒙(Herbert Simon,诺贝尔经济学奖得主)等科学家正聚在一起,讨论着一个完全不食人间烟火的主题:
用机器来模仿人类学习以及其他方面的智能
机器学习、深度学习、人工智能关系:
- 机器学习是人工智能的一个实现途径
- 深度学习是机器学习的一个方法发展而来
机器学习、深度学习应用:
-
传统预测
应用场景:店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类等。 -
图像识别
街道交通标志检测、人脸识别等。 -
自然语言处理
文本分类、情感分析、自动聊天、文本检测等。
1.2 什么是机器学习
1.2.1 概述
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
在现实中:我们从大量的日常经验中归纳规律,当面临新的问题的时候,就可以利用以往总结的规律去分析现实状况,采取最佳策略。
那么从历史数据当中获得规律,这些历史数据是怎么的格式?
1.2.2 数据集的构成
特征值 + 目标值
e.g:房屋特征与相应价格(目标值)
注:
对每一行数据称为样本。
有些数据集可以没有目标值(如下图,一群人并不能明确具体是谁,但最终可分类)。
1.3.机器学习算法分类
引例:
如果要识别猫和狗,就要从数据中获得模型,就要有对应的特征值和目标值。
特征值:猫/狗的图片
目标值:猫/狗—类别
如果要对房屋价格进行预测,则对应
特征值:房屋的各个属性信息
目标值:房屋价格–连续型数据
则
1.3.1 监督学习
定义∶ 输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。
- 目标值:类别 - 分类问题
k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归 - 目标值:连续型的数据 - 回归问题
线性回归、岭回归
1.3.2 无监督学习
定义: 输入数据是由输入特征值所组成。
- 目标值:无
聚类 k-means
1.4.机器学习开发流程和学习框架
1.4.1 开发流程
获取数据–数据处理-- 特征工程–机器学习算法训练(模型)–模型评估–应用
1.4.2 学习框架
- 算法是核心,数据与计算是基础
- 找准定位
- 怎么做?
①入门
②实战类书籍
③机器学习 -“西瓜书”- 周志华、统计学习方法 - 李航、深度学习 - “花书”
–学会分析问题,使用机器学习算法的目的,想要算法完成何种任务。
–掌握算法基本思想,学会对问题用相应的算法解决。
–学会利用库或者框架解决问题。 - 传统机器学习算法:Sklearn。
深度学习框架:Tensorflow、Pytorch、Chainer等。
备注:
参考学习:B站-黑马程序员3天快速入门python机器学习