ML笔记
机器学习及应用
般若Neo
May the force be with you
展开
-
ML笔记 - 决策树相关
什么是决策树如何构建决策树明确信息度量方式:信息增益、熵、基尼系数明确分支终止条件:纯度、记录条数、循环次数选取信息增益最大的特征为当前最佳特征常用的决策树算法有ID3、C4.5、CART等集成学习BaggingBoostingRandomForest...原创 2019-03-04 11:24:40 · 554 阅读 · 0 评论 -
ML笔记 - 分类模型评估
混淆矩阵(Confusion Matrix)是可视化工具,特别用于监督学习,在无监督学习中一般叫做匹配矩阵,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。TP的定义:实际为正预测为正FP的定义:实际为负但预测为正TN的定义:实际为负预测为负FN的定义:实际为正但预测为负召回率(Recall,TNR):预测对的正例数占真正的正例数的比率计算公式:Reca...原创 2019-02-19 17:07:05 · 993 阅读 · 0 评论 -
ML笔记 - 神经网络训练技巧
数据预处理数据去均值激活函数选择优先使用ReLU,尝试Leaky ReLU / Maxout / ELU,少用Sigmoid权重初始化不同的初始方法下,随迭代轮次,损失的变化学习率与批样本大小不同批样本数量对于训练的影响不同大小的学习率下,神经网络的训练损失变化损失函数与优化器不同优化方法下,loss的变化超参数调优批规范化处理 / Batch Normal...原创 2019-02-18 17:03:27 · 687 阅读 · 1 评论 -
ML笔记 - 自然语言处理常用技术
自然语言处理(NLP Natural Language Processing),是人工智能(AI Artificial Intelligence)的一部分,实现人与计算机之间的有效通信。自然语言处理属于计算机科学领域与人工智能领域,其研究使用计算机编程来处理与理解人类的语言。常见的自然语言处理有文本相似度匹配、情感分析、机器翻译、聊天机器人等。分词停用词过滤词干提取词形还原词...原创 2019-01-29 17:23:40 · 2117 阅读 · 2 评论 -
ML笔记 - BP神经网络算法介绍
人工神经网络的结构特点BP神经网络的概念和特点BP神经网络的思想BP神经网络的步骤BP神经网络设计结构设计神经元数激活函数参数设计BP神经网络常用训练函数防止过拟合...原创 2019-01-18 15:19:32 · 4389 阅读 · 1 评论 -
ML笔记 - 人工神经网络简介
人工神经网络的概念人工神经网络的操作过程人工神经网络的作用生物神经元的结构生物神经元的基本特征人工神经元的概念人工神经元的结构常见人工神经元的激活函数人工神经网络的发展史...原创 2019-01-18 14:29:05 · 1200 阅读 · 0 评论 -
ML笔记 - 常用分类算法
分类算法的定义KNN最近邻算法决策树朴素贝叶斯支持向量机人工神经网络集成学习随机森林原创 2019-01-04 17:11:07 · 1584 阅读 · 0 评论 -
ML笔记 - 机器学习的基本流程
机器学习的定义机器学习的常见类型机器学习的基本流程需求分析数据预处理特征工程算法建模模型评估评估方法之交叉验证常见分类模型的评估方法模型优化...原创 2019-01-04 16:30:53 · 2290 阅读 · 0 评论 -
ML笔记 - 回归模型诊断之违背基本假设
在回归模型中,常见违背基本假设的情况有异方差、自相关和异常值。异方差回归模型中的异方差是指随机误差项的方差不是一个常数,而是随着自变量的取值变化而变化。由于不满足回归分析中的同方差的前提假设,异方差将可能带来以下问题:对使用最小二乘法求解参数时,参数估计值虽然无偏,但是不是最小方差线性无偏估计。参数的显著性检验失效。回归方程的应用效果不理想。造成异方差的常见原因:模型缺少了某...原创 2018-11-06 21:11:50 · 3031 阅读 · 0 评论 -
ML笔记 - 回归分析概述
基本概念**变量之间的非严格函数关系:**变量x、y之间存在某种密切的联系,但并非严格的函数关系(非确定性关系)。**回归:**回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述。**线性和非线性:**线性(Linear)的严格定义是一种映射关系,其映射关系满足可加性和齐次性。通俗来讲就是两个变量存在一次方函数关...原创 2018-10-23 20:31:08 · 929 阅读 · 0 评论 -
ML笔记 - 模型的性能度量
性能度量(Performance Measure)评价模型泛化能力的标准。对于不同的模型,有不同的评价标准,不同的评价标准将导致不同的评价结果。模型的好坏是相对的,取决于对于当前任务需求的完成情况。比如对回归模型的性能度量通常选用均方误差(Mean Squared Error),对分类模型的性能度量通常采用错误率、精度、查准率、查全率、P-R曲线、混肴矩阵等。比较检验选择合适的评估方法...原创 2018-10-15 13:10:31 · 585 阅读 · 0 评论 -
ML笔记 - 模型的选择及评估
基本概念误差(Error):是模型的预测输出值与其真实值之间的差异。训练(Training):通过已知的样本数据进行学习,从而得到模型的过程。训练误差(Training Error):模型作用于训练集时的误差。泛化(Generalize):由具体的、个别的扩大到一般的,即从特殊到一般,称为泛化。对机器学习的模型来讲,泛化是指模型作用于新的样本数据(非训练集)。泛化误差(Genaraliz...原创 2018-10-12 14:41:10 · 693 阅读 · 0 评论 -
ML笔记 - 机器学习方法三要素
机器学习方法通常都是由模型、策略和算法三部分构成:方法 = 模型 + 策略 + 算法。模型确定学习范围,策略确定学习规则,算法按规则在范围内学习。模型输入空间到输出空间的映射关系,学习过程即为从假设空间搜索适合当前数据的假设。分析当前需要解决的问题,确定模型:分类(Classification):预测分类回归(Regression):预测取值聚类(Clustering):发现结构...原创 2018-10-11 14:43:38 · 791 阅读 · 0 评论 -
ML笔记 - 机器学习基本概念
监督学习以已知结果的数据集作为训练样本。基本流程:输入数据 -> 特征工程 -> 模型训练 -> 模型部署 -> 模型应用。监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示,也就是说学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射集合,这个集合就原创 2018-10-10 20:43:21 · 466 阅读 · 0 评论