一、机器学习概述与流程
1.机器学习是一门入门容易但精通难的学科,需要掌握行业知识以理解数据背后的隐含信息。
2.主要流程包括明确分析目标、数据收集、数据预处理、建模分析、结果评估、部署使用以及学习更新。
二、机器学习实践方法
- 明确数据分析目标:与用户充分沟通,明确项目主题和范围。
- 数据收集:收集内部业务系统和外部数据,如通过网络爬虫或购买获得。
- 数据预处理:处理噪声、不一致、异常等问题,保证数据质量。
- 数据建模:选择合适的算法,进行算法调优,确定最佳模型。
- 效果评估:评估模型对实现业务目标的帮助程度,通过样本测试等方法。
- 部署使用与更新:部署有效的机器学习结果,并根据业务变化更新模型。
三、机器学习常用算法分类
1.分类算法:决策树、支持向量机、神经网络等。
2.聚类算法:K-means、基于层次的聚类、基于划分的聚类等。
3.回归分析:线性回归、逻辑回归、多项式回归等。
四、深度学习与神经网络
1.深度学习通过构建多个隐藏层提升分类或预测准确性,包括CNN、DNN、RNN等。
2.神经网络的训练包括前向传输和反向传播,准确性与训练集样本数量和分类质量有关。
五、数据挖掘常用算法推荐算法
1.包括基于内容的推荐算法、协同过滤推荐算法、基于矩阵分解的推荐算法等。
六、统计学习理论在机器学习中的应用
1.统计学习强调从数据中学习,通过估计数据的概率分布来构建预测模型。
2.监督学习需标签数据,无监督学习探索结构,半监督学习结合二者,强化学习试错优化。
七、统计分析的基本概念
1.统计学习的定义、偏差与方差权衡的重要性、正则化避免过拟合等基本概念。
八、统计学习方法三要素
1.模型、算法、策略的选择直接影响模型性能。
九、模型假设与验证
1.模型假设的重要性、数据分布影响假设、交叉验证验证假设等。
十、模型评估与选择
1.经验误差与过拟合、ROC曲线全面评估、偏差-方差权衡等。
十一、生成模型与判别模型
1.生成模型通过学习数据的内在结构和分布规律生成新样本,判别模型直接学习不同类别间的最优决策边界。
十二、统计学习在实际中的应用
1.推荐系统精准化、信贷风险评估、医疗图像诊断、股票趋势预测等领域的应用案例。