机器学习的sklearn实现
文章平均质量分 81
本专栏主要介绍机器学习中常见的算法,以Ng的机器学习教程、李航的《统计学习方法》和华校专的《Python大战机器学习》等为主要参考资料,从理论到应用,逐步掌握机器学习。
豆-Metcalf
已弃用CSDN,欢迎关注我的GitHub https://github.com/Meatlf,不断更新关于图像算法,深度学习,算法优化等学习笔记和代码,欢迎粉一下.
展开
-
机器学习教程之13-决策树(decision tree)的sklearn实现
0.概述决策树(decision tree)是一种基本的分类与回归方法。 主要优点:模型具有可读性,分类速度快。 决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。1.决策树模型与学习节点:根节点、子节点;内部节点(internal node)和叶节点(leaf node)。决策树学习本质上是从训练数据集中归纳出一组分类规则。决策树学习仍然需要将代价函数最小化。为了防止有过拟合现原创 2017-08-02 20:38:21 · 16142 阅读 · 0 评论 -
机器学习教程之12-朴素贝叶斯(naive Bayes)法的sklearn实现
0.概述朴素贝叶斯法基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。优点: 原理简单 实现简单 学习与预测的效率都很高 是一种常用的方法缺点: 1.朴素贝叶斯法的学习与分类要点: 1)朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体原创 2017-07-23 20:12:09 · 1463 阅读 · 0 评论 -
机器学习教程之11-降维(Dimensionality Reduction)
0.概述----**降维**也是一种**无监督学习**问题。原创 2017-08-05 13:52:30 · 753 阅读 · 0 评论 -
机器学习教程之10-聚类(Clustering)-K均值聚类(K-means)的sklearn实现
0.概述----**优点**:原理简单速度快能够处理大量的数据**缺点**:需要指定聚类 数量K对异常值敏感对初始值敏感原创 2017-08-04 18:48:32 · 14262 阅读 · 3 评论 -
机器学习教程之9-SVM的sklearn实现
0.概述[1] 优点:缺点:支持向量机(support vector machines,SVM)是一种二类分类模型。SVM的基本模型是定义在特征空间的间隔最大的线性分类器,间隔最大使它有别于感知器。SVM学习方法由简至繁分为三种模型:线性可分支持向量机、线性支持向量机及非线性支持向量机。分别对应三种处理方法:硬间隔最大化、软间隔最大化、核技巧。支持向量机的学习是在特征空间进行的。1.线性可分支持向原创 2017-07-27 14:39:58 · 11837 阅读 · 1 评论 -
机器学习教程之8-机器学习系统的设计(Machine Learning System Design)
0.概述---当数据有**类偏斜**的现象时,**查准率**和**查全率**能更准确的判断算法效果的好坏。原创 2017-08-16 22:43:05 · 628 阅读 · 0 评论 -
机器学习教程之7-应用机器学习的建议(Advice for Applying Machine Learning)
0.概述1.决定下一步做什么关于机器学习,可以做两件事情,开发一个机器学习系统或者改进一个机器学习系统的性能。当发现训练好的模型预测数据时有较大误差,可以尝试如下几个角度以减少误差: (1)获取更多训练实例,这样做是有效的,但是代价太大,因而优先考虑下面的几种方法; (2)尝试减少或增加特征的数量; (3)尝试较少或增加正则化程度lamda。可以通过机器学习诊断法帮助我们选择哪种方法提高机器学原创 2017-06-03 20:55:35 · 594 阅读 · 0 评论 -
机器学习教程之6-神经网络的学习(Neural Networks:Learning)
1.代价函数 注意:由红色圆圈可知,这里的代价函数实际上输出的各个元素的代价函数之和。2.反向传播算法首先用正向传播方法计算出每一层的激活单元,利用训练集的结果与神经网络预测的结果求出最后一层的误差,然后利用该误差运用反向传播法计算出直至第二层的所有误差。3.反向传播算法的直观理解4.实现注意:展开参数5.梯度校验6.随机初始化7.综合起来小结一下使用神经网络时的步骤: 网络结构:第一件要做的事原创 2017-05-23 09:48:47 · 567 阅读 · 0 评论 -
机器学习教程之5-神经网络:表述(Neural Networks:Representation)
1.非线性假设无论是线性回归还是逻辑回归都有这样一个缺点,即: 当特征太多时,计算的负荷会非常大。使用非线性的多项式,能够建立更好的分类模型。普通的逻辑回归模型,不能有效地处理很多的特征,这时候就需要神经网络。2.神经元和大脑神经网络是一种很古老的算法,它最初产生的目的是制造能模拟大脑的机器。 人工智能的梦想就是:有一天能制造出真正的智能机器。3.模型表示1神经元:每一个神经元都可以被认为是一个处原创 2017-05-07 10:52:02 · 882 阅读 · 0 评论 -
机器学习教程之4-正则化(Regularization)
1.过拟合的问题模型的分类:欠拟合、完全符合、过拟合 目前已经学习的线性回归和逻辑回归可以解决很多问题,在实际应用中可能会产生过度拟合(over-fitting)的问题,可能导致它们的效果很差。 这里利用正则化(regularization,有译者翻译为:规范化)技术减少过度拟合的问题。 减少过拟合的方法: 1. 丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征, 或者使用一些原创 2017-05-23 20:47:33 · 5004 阅读 · 1 评论 -
机器学习教程之3-逻辑回归(logistic regression)的sklearn实现
0.概述---**线性回归**不仅可以做**回归**问题的处理,也可以通过与**阈值**的比较转化为**分类**的处理,但是其**假设函数**的输出范围没有限制,这样很大的输出被分类为1,较少的数也被分为1,这样就很奇怪。而**逻辑回归**的**假设函数**的输出范围是0~1。当数据集中含有误差点时,使用**线性回归**相应的误差也会很大。原创 2017-04-29 23:30:04 · 16592 阅读 · 1 评论 -
机器学习之0-机器学习概述
1.背景----**意义**:机器学习是目前信息技术中最激动人心的方向之一。**应用场景**:搜索、图片分类、过滤垃圾邮件。**应用领域**:计算生物学、机械应用、手写识别、自然语言处理或计算机视觉等。原创 2017-05-07 18:39:51 · 665 阅读 · 0 评论