博客专栏  >  互联网   >  机器学习实战笔记

机器学习实战笔记

该笔记为本人基于机器学习实战这本书所做的个人笔记,包括总结和代码,书中的错误,也有所修正

关注
95 已关注
15篇博文
  • 最小二乘法和最大似然估计

    一:背景:当给出我们一些样本点,我们可以用一条直接对其进行拟合,如y= a0+a1x1+a2x2,公式中y是样本的标签,{x1,x2,x3}是特征,当我们给定特征的大小,让你预测标签,此时我们就需要事...

    2015-04-13 21:46
    4838
  • VC维

    有关于VC维可以在很多机器学习的理论中见到,它是一个重要的概念。在读《神经网络原理》的时候对一个实例不是很明白,通过这段时间观看斯坦福的机器学习公开课及相关补充材料,又参考了一些网络上的资料(主要是这...

    2015-04-13 20:54
    1714
  • PCA降维简介

    PCA全称为principal componentanalysis,即主成成分分析,用于降维。对数据进行降维有很多原因。比如:        1:使得数据更易显示,更易懂        2:降低很多算...

    2014-11-27 13:09
    27507
  • 信息检索的评价指标(Precision, Recall, F-score, MAP)

    之前写过一篇blog叫做机器学习实战笔记之非均衡分类问题:http://blog.csdn.net/lu597203933/article/details/38666699其中对Precision和R...

    2014-12-08 12:39
    19431
  • 理解矩阵及谱聚类小记

    最近看了一些矩阵和谱聚类的知识,特在此简单记录一下。详细可以先看下参考文献。 首先看到的是孟岩写的三篇. 一:理解矩阵(一) 1:传统书籍空间的定义:存在一个集合,在这个集合上定义某某概念,然后满足某...

    2014-12-15 16:52
    3433
  • 机器学习实战笔记9(Apriori算法)

    Apriori算法也属于无监督学习,它强调的是“从数据X中能够发现什么”。从大规模的数据集中寻找物品之间隐含关系被称为关联分析或者称为关联规则学习。这里的主要问题在于,寻找物品的不同组合是一项十分耗时...

    2014-09-09 19:18
    10522
  • 机器学习实战笔记8(kmeans)

    前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。 1:...

    2014-09-09 13:22
    4317
  • 机器学习实战笔记之非均衡分类问题

    通常情况下,我们直接使用分类结果的错误率就可以做为该分类器的评判标准了,但是当在分类器训练时正例数目和反例数目不相等时,这种评价标准就会出现问题。这种现象也称为非均衡分类问题。此时有以下几个衡量标准。...

    2014-08-18 22:01
    3812
  • 机器学习实战笔记7(Adaboost)

    1:简单概念描述        Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们需要简单介绍几个概念。 1:弱学习器:在二分情况下弱分类器的错误率会高于...

    2014-08-18 21:26
    7638
  • 机器学习实战笔记6(SVM)

    鉴于July大哥的SVM三层境界(http://blog.csdn.net/v_july_v/article/details/7624837)已经写得非常好了,这里我就不详细描述,只是阐述简单的几个概...

    2014-08-12 20:33
    4095
  • 机器学习实战笔记5(logistic回归)

    1:简单概念描述 假设现在有一些数据点,我们用一条直线对这些点进行拟合(改线称为最佳拟合直线),这个拟合过程就称为回归。训练分类器就是为了寻找最佳拟合参数,使用的是最优化算法。 基于sigmoid函数...

    2014-08-10 11:12
    15739
  • 机器学习实战笔记4(朴素贝叶斯)

    前面介绍的kNN和决策树都给出了“该数据实例属于哪一类”这类问题的明确答案,而有时候的分类并不能给出明确的答案,本节讲解使用概率论进行分类的方法。 1:简单概念描述 概念比较简单,这里我摘抄自百度百科...

    2014-08-08 21:20
    7232
  • 机器学习实战笔记3(决策树与随机森林)

    决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。 1:简单概念描述        决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度...

    2014-07-21 21:26
    11485
  • 机器学习实战笔记2(k-近邻算法)

    1:算法简单描述        给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于2...

    2014-07-19 22:22
    11183
  • 机器学习实战笔记1(机器学习基础)

    1:如何选择合适的算法 2:python简介 (1)   python的优势:相对于matlab,matlab单个软件授权就要花费数千美元,也没有一个有影响力的大型开源项目。相对于...

    2014-07-16 22:00
    4015

opencv学习
16177170

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部