机器学习
文章平均质量分 77
豆-Metcalf
已弃用CSDN,欢迎关注我的GitHub https://github.com/Meatlf,不断更新关于图像算法,深度学习,算法优化等学习笔记和代码,欢迎粉一下.
展开
-
机器学习教程之4-正则化(Regularization)
1.过拟合的问题模型的分类:欠拟合、完全符合、过拟合 目前已经学习的线性回归和逻辑回归可以解决很多问题,在实际应用中可能会产生过度拟合(over-fitting)的问题,可能导致它们的效果很差。 这里利用正则化(regularization,有译者翻译为:规范化)技术减少过度拟合的问题。 减少过拟合的方法: 1. 丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征, 或者使用一些原创 2017-05-23 20:47:33 · 5014 阅读 · 1 评论 -
机器学习之0-机器学习概述
1.背景----**意义**:机器学习是目前信息技术中最激动人心的方向之一。**应用场景**:搜索、图片分类、过滤垃圾邮件。**应用领域**:计算生物学、机械应用、手写识别、自然语言处理或计算机视觉等。原创 2017-05-07 18:39:51 · 674 阅读 · 0 评论 -
机器学习教程之3-逻辑回归(logistic regression)的sklearn实现
0.概述---**线性回归**不仅可以做**回归**问题的处理,也可以通过与**阈值**的比较转化为**分类**的处理,但是其**假设函数**的输出范围没有限制,这样很大的输出被分类为1,较少的数也被分为1,这样就很奇怪。而**逻辑回归**的**假设函数**的输出范围是0~1。当数据集中含有误差点时,使用**线性回归**相应的误差也会很大。原创 2017-04-29 23:30:04 · 16606 阅读 · 1 评论 -
机器学习教程之9-SVM的sklearn实现
0.概述[1] 优点:缺点:支持向量机(support vector machines,SVM)是一种二类分类模型。SVM的基本模型是定义在特征空间的间隔最大的线性分类器,间隔最大使它有别于感知器。SVM学习方法由简至繁分为三种模型:线性可分支持向量机、线性支持向量机及非线性支持向量机。分别对应三种处理方法:硬间隔最大化、软间隔最大化、核技巧。支持向量机的学习是在特征空间进行的。1.线性可分支持向原创 2017-07-27 14:39:58 · 11855 阅读 · 1 评论 -
机器学习教程之2-线性回归(linear regression)的sklearn实现
0.概述线性回归属于机器学习中的回归问题,因为线性回归是根据数据预测一个准确的输出值,而不是分类结果。 注意:”机器学习教程之1”里的感知器讲的是分类问题,它是寻找超平面将数据分为正、负两类。优点:非常简单、易于建模、应用广泛缺点:1.模型表示 数据集:数据的集合监督学习:从已有数据中发现关系:由多个输入映射一个输出。并用数学模型表示,将新数据用这数学模型运算得到新的输出。监督学习的方式:回归问原创 2017-04-26 21:26:19 · 3500 阅读 · 0 评论 -
机器学习教程之13-决策树(decision tree)的sklearn实现
0.概述决策树(decision tree)是一种基本的分类与回归方法。 主要优点:模型具有可读性,分类速度快。 决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。1.决策树模型与学习节点:根节点、子节点;内部节点(internal node)和叶节点(leaf node)。决策树学习本质上是从训练数据集中归纳出一组分类规则。决策树学习仍然需要将代价函数最小化。为了防止有过拟合现原创 2017-08-02 20:38:21 · 16167 阅读 · 0 评论 -
机器学习教程之12-朴素贝叶斯(naive Bayes)法的sklearn实现
0.概述朴素贝叶斯法基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。优点: 原理简单 实现简单 学习与预测的效率都很高 是一种常用的方法缺点: 1.朴素贝叶斯法的学习与分类要点: 1)朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体原创 2017-07-23 20:12:09 · 1472 阅读 · 0 评论 -
机器学习教程之11-降维(Dimensionality Reduction)
0.概述----**降维**也是一种**无监督学习**问题。原创 2017-08-05 13:52:30 · 762 阅读 · 0 评论 -
机器学习教程之10-聚类(Clustering)-K均值聚类(K-means)的sklearn实现
0.概述----**优点**:原理简单速度快能够处理大量的数据**缺点**:需要指定聚类 数量K对异常值敏感对初始值敏感原创 2017-08-04 18:48:32 · 14273 阅读 · 3 评论 -
机器学习教程之-近邻法
from sklearn.neighbors import NearestNeighborsimport numpy as np# X为6个点的数据X = np.array([[3, 2], [-2, -1], [-1, -1], [1, 1], [2, 1], [3, 2]])# 以 X[i] 为参考点,找(n_neighbors - 1)个与之最近的点nbrs = NearestNeigh原创 2017-07-21 19:14:40 · 461 阅读 · 0 评论 -
机器学习之-最邻近算法(Nearest Neighbor)
1.理论基础测试图片(test image)与训练图片(training image)每个对应相同位置像素值之差的绝对值,然后求和。具体如下图所示: 待续原创 2017-06-27 21:56:54 · 5972 阅读 · 0 评论 -
机器学习教程之8-机器学习系统的设计(Machine Learning System Design)
0.概述---当数据有**类偏斜**的现象时,**查准率**和**查全率**能更准确的判断算法效果的好坏。原创 2017-08-16 22:43:05 · 641 阅读 · 0 评论 -
机器学习教程之7-应用机器学习的建议(Advice for Applying Machine Learning)
0.概述1.决定下一步做什么关于机器学习,可以做两件事情,开发一个机器学习系统或者改进一个机器学习系统的性能。当发现训练好的模型预测数据时有较大误差,可以尝试如下几个角度以减少误差: (1)获取更多训练实例,这样做是有效的,但是代价太大,因而优先考虑下面的几种方法; (2)尝试减少或增加特征的数量; (3)尝试较少或增加正则化程度lamda。可以通过机器学习诊断法帮助我们选择哪种方法提高机器学原创 2017-06-03 20:55:35 · 608 阅读 · 0 评论 -
机器学习教程之6-神经网络的学习(Neural Networks:Learning)
1.代价函数 注意:由红色圆圈可知,这里的代价函数实际上输出的各个元素的代价函数之和。2.反向传播算法首先用正向传播方法计算出每一层的激活单元,利用训练集的结果与神经网络预测的结果求出最后一层的误差,然后利用该误差运用反向传播法计算出直至第二层的所有误差。3.反向传播算法的直观理解4.实现注意:展开参数5.梯度校验6.随机初始化7.综合起来小结一下使用神经网络时的步骤: 网络结构:第一件要做的事原创 2017-05-23 09:48:47 · 584 阅读 · 0 评论 -
机器学习教程之5-神经网络:表述(Neural Networks:Representation)
1.非线性假设无论是线性回归还是逻辑回归都有这样一个缺点,即: 当特征太多时,计算的负荷会非常大。使用非线性的多项式,能够建立更好的分类模型。普通的逻辑回归模型,不能有效地处理很多的特征,这时候就需要神经网络。2.神经元和大脑神经网络是一种很古老的算法,它最初产生的目的是制造能模拟大脑的机器。 人工智能的梦想就是:有一天能制造出真正的智能机器。3.模型表示1神经元:每一个神经元都可以被认为是一个处原创 2017-05-07 10:52:02 · 895 阅读 · 0 评论