一、机器学习基础(使用工具sklearn)
- 机器学习定义,主要的一些概念,主要挑战
- 一个完整的机器学习项目包含哪些内容## 标题
数据+模型 缺一不可
数据方面:
数据预处理,特征选择,数据可视化
模型方面:
选择算法适配数据,评估模型,(交叉验证,过拟合/欠拟合,学习/验证曲线,各种精度指标),模型参数选择
二、些补充概念
核外学习概念:处理计算机内无法应对大量数据,将数据分为小批量,然后使用在线学习技术从这些小批量数据中学习。
批量学习技术:使用MapReduce技术
模型参数:这些参数决定模型的预测值(比如斜率)
超参数:试图找到这些参数本身的最佳值(比如学习的正则化和学习率)
机器学习面临的主要挑战(从数据和模型两方面来讲)
- 数据缺乏、数据质量差
- 数据不具代表性、特征不具信息量
- 模型过于简单对训练数据拟合不足,以及模型过于复杂对训练数据过度拟合
解决过拟合的方法:
- 获取更多数据
- 简化模型(选择更简单的算法、减少使用的参数或特征数量、对模型正则化)
- 减少训练数据中的噪声
交叉验证不需要单独的验证集实现模型参数的选择和调整超参数,节省宝贵的训练数据
常见的无监督学习方法:
聚类,降维,关联规则学习,可视化
三、 构建机器学习项目八步法
详见本书中文版第611页。
四、神经网络深度学习(使用工具框架tensorflow)
神经网络和深度学习方法适合自然语言处理,图像识别,语音识别
- 一些常见神经网络的架构
CNN/RNN/LSTM/AE/DNN
- 神经网络训练和参数调整的技巧
- 神经网络反向传播的推导
- 如何微调神经网络模型适配于不同的场景