机器学习
文章平均质量分 76
未央夜色
这个作者很懒,什么都没留下…
展开
-
机器学习之K近邻简介
描述KNN是常见的监督学习算法,输入是实例的特征向量,输出是实例对应的类别。 给定测试样本,基于某种距离计算方法,计算出与其距离最近的K个训练样本,根据多数表决方法判定属于哪个类别。典型的懒惰学习算法,不具有显示的学习过程。在接受数据时,不做处理,当真正计算的时候才按照算法流程走。 三大要素:K值的选择 较小的K,会导致过拟合较大的K,会导致欠拟合距离的度量。 不同的距离度量算法所确定原创 2017-04-26 12:48:57 · 251 阅读 · 0 评论 -
机器学习之回归简介
线性回归综述目的是找到一个映射,最能反映二者之间的关系。用来预测当有新的样本输入的时候,输入的结果线性回归处理的变量必须是连续的。欠拟合&过拟合 过拟合跟欠拟合是ml算法表现差的两大原因 欠拟合:样本的容量不够引起的 过拟合:如果有特别多的特征,曲线可以拟合的很好,但是丧失了一般性,导致泛化能力差。设如何处理正则化? 正则化的方法。算法使用最小二乘法计算两个参数。根据输入的样本情况,计原创 2017-05-20 12:07:01 · 355 阅读 · 0 评论 -
机器学习之Kmeans
聚类非监督学习,输入的数据没有标签,通过学习找出数据内在的性质和规律。 两个基本问题来衡量聚类效果的好坏:性能度量最佳的效果是簇内相似度高,簇间相似度低(类似高内聚低耦合)簇间度量(越大越好)Jrccard系数FM系数Rand系数簇内度量DB系数(越小越好)Dumn系数(越大越好)距离计算有序属性闵可夫斯基距离 曼哈顿距离 是闵可夫斯基距离参数=1 的情况 欧氏距离 是闵可夫斯基原创 2017-04-14 15:24:11 · 449 阅读 · 0 评论 -
机器学习之集成学习简介
综述集体学习: 将不同的分类器组合起来。 先产生个体学习,在根据多个个体学习完成学习任务。 每个个体学习可以采用的算法可以不同集成学习可能有不同的提升/不变/降低 这要求学习器:单个个体不能太差学习器之间要有差异/多样性理论上来说,如果单个学习器之间相互独立,当个数很多的时候,集成学习的正确率非常高,趋近于满分如何产生好而不同的个体学习器,是集成学习的核心问题bagging有放回从有原创 2017-05-06 11:56:59 · 761 阅读 · 0 评论 -
机器学习综述
基本概念机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。 “用机器学习的方法来进行数据挖掘。”机器学习是一种方法;数据挖掘是一件事原创 2017-04-05 21:23:08 · 760 阅读 · 0 评论 -
机器学习之SVM简介
综述在深度学习(2012)出现之前,SVM是ml算法中最优秀的算法。 支持向量机,本质是个分类器。核技巧+间隔最大 当间隔最大的时候,他的泛化能力是最强的,鲁棒性最高。基于最大间隔分割数据。分割的超平面有无数个,找的是最大化的寻找一个能把样本分割开的超平面(分割超平面)Max Margin Hyperplane求解凸二次规划的最优化算法。支持向量:超平面上的那些点(样本) 当样本有多个原创 2017-04-26 12:51:26 · 532 阅读 · 0 评论 -
机器学习之朴素贝叶斯简介
综述适用于标称型数据的监督学习方法。NB本质是个分类问题,根据样例属于哪个类的概率的大小判断样本属于哪个类。 朴素贝叶斯有两个基本条件:朴素和贝叶斯定理朴素:朴素指的是特征之间的相互独立性假设,就是特征1和特征2之间发生的概率相互不受影响。 特征1发生与否和特征2无关。贝叶斯定理:算法流程NB中常用的几个模型:高斯模型通过高斯分布,可以把连续的变量转换成标称型变量。 多项式模型多项式分布适合词原创 2017-04-09 19:37:00 · 1369 阅读 · 0 评论 -
机器学习之决策树简介
综述一种非常常用的机器学习算法,属于监督学习,可以用于分类和回归。每个内部节点表示在一个属性上的测试,每个分支代表当前测试的输出。每个叶节点代表类别。根据属性的值分类。得到的新节点是根据属性分后的实例当新节点内,所有的实例都是同一个标记的时候,停止分类自顶向下,基本思想是以信息熵为度量,构造一棵熵值下降最快的树,直到熵的值最终为0。可能是最常使用的数据挖掘算法,主要有ID3,X4.5,C原创 2017-04-05 20:33:54 · 511 阅读 · 0 评论 -
机器学习之特征工程简介
简介特征工程非常重要。对于模型的效果起大了极大的作用。实际开发中,大部分的时间都花费在特征工程上面。特征工程最重要的是对具体业务的深刻理解。减少数据存储和输入的代价,降低数据的维度 发现更多深入的特征,提升准确率。特征工程和降维,是处理高维度数据的两大主要手段。特征选择(选)去掉无关特征,只保留核心特征。从总体特征中选择一个最好(最能代表整体)的特征子集本质上是一个降维的过程。核心是不丢失关原创 2017-05-20 12:07:58 · 599 阅读 · 0 评论