机器学习的历史沿革
在2006年,Geoffrey Hinton等人发表了一篇论文来论述如何训练深度神经网络,使其能够高精度地(>98%)辨识手写数字。他们给这项技术取名:“深度学习”。深度神经网络由许多层人工神经元为要素构成,是我们人类大脑皮层的极简模型。在20世纪末的学者看来,对该模型进行训练是不可能的。但是在那不久后,大量论文表明:深度学习不但可能,而且借助海量计算能力和大量数据能实现其他机器学习都无法达到的成就。十多年之后,机器学习征服了行业,引领着人们的生活。今天的高科技产品的内核、你网页搜索的结果排序、手机语音识别、视频推荐、打败世界冠军的AlphaGo…
机器学习和项目管理
企业拥有大量数据:用户基本信息,财务数据,产品数据,机器传感器数据,热线电话,人力资源报告…
基于企业拥有的海量数据,通过机器学习,可实现的目标包括但不限于:
- 对客户分层,给不同客户群找到最佳的营销策略;
- 基于相似客户所购买的产品为客户推介
- 发觉可疑的诈欺交易
- 预测明年的营业额
目标和方法
本书写给几乎不了解机器学习的读者。教会你概念、工具、和“知道怎么挖掘数据价值的直觉”。本书涉及大量算法,从最简单常的线性回归到深度学习。针对每个算法的实施,与其用你自己写的,不如用一些写好了的Python框架:
- Scikit-Learn不但非常简单好用而且对机器学习有效,适合作为学习机器学习的切入点
- TensorFlow就更复杂,分布式数据运算,可以用它训练和运行神经网络。
- Keras是一个高水平的深度学习API,用它运行和计算神经网络非常简单。TensorFlow是从它的tf.keras中演变而来的,
本书鼓励上手操作,建议你用一些代码示例(Jupyter notebooks)尝试操作:http://github.com/ageron/handson-ml2
先决条件
这本书假设你有一定的Python经验并熟练Numpy,pandas和Matplotlib。如果还不了解Python,http://learnpython.org/是个很好的选择,或者来自官网Python.org的教程也不错。如果你还没有用过Jupyter,第二章会教你安装和基础。
路径
第一部分,机器学习基础:
- 什么是机器学习,它解决什么问题,主要分类和基本概念
- 完整机器学习的步骤
- 给数据套用一个模型
- 成本最低
- 处理、清洗、准备数据
- 特征筛选和特征工程
- 选择模型和通过拆分样本集交叉验证调优关键参数(超级参数)
- 结果的欠拟合和过拟合是机器学习的难关(无偏误和高稳定性预测难以兼得)
- 机器学习的常见算法:线性回归和多元线性回归,逻辑回归,K最近邻;支持向量机,决策树,随即森林,还有他它们的合方法
- 降维
- 其他无监督学习技术,包括聚类、密度估计、异常检测
第二部分,神经网络和深度学习
-
神经网络是什么它擅长解决哪些问题
-
用TensorFlow和Keras建立和训练神经网络
-
最重要的神经网络结构
-
深度神经网络的训练方法
-
怎样通过强化学习建立代理进而根据日志和错误优化方案
-
大规模训练和部署TensorFlow模型
第一部分主要用到Scikit-Learn, 第二部分使用TensorFlow和Keras。
第一章 机器学习总览
机器学习就在身边,比方说已经有了10多年历史的OCR技术…,但是最老早的还是1990s(20世纪90年代的)垃圾邮件过滤器。虽然它还称不上是一个自我意识防火墙,但是确实具备机器学习的技术素养(学得很好,反正大多数人再也没有手动标记垃圾邮件了)。紧随而来的是大量的产品,从自动推介到语音搜索,都是你常用的。
在正式开始他探索这片机器学习的天地之前,看一下最著名的”地标“:有监督和无监督学习,在线学习和批量学习,基于实例和基于模型。随后看一下工作流程,讨论主要的挑战并评估和精调。
什么是机器学习
为什么用机器学习
- 不需要人工干预:垃圾软解识别规律的变化,都是