机器学习
文章平均质量分 88
alistair_chow
这个作者很懒,什么都没留下…
展开
-
西瓜书学习笔记——(1)绪论
前言之前由于机器学习,人工智能,数据分析大火,为了顺应时代,于是找了几个国外的视频网站看了点相关的讲解,但由于本人英语水平有限,看起来太吃力,而且当时也没有Python的基础,听得晕头转向的。然后就买了两本书,打算进行系统性的学习。其中一本就是这本被大力推荐的西瓜书。刚拿到书,翻了一下,全是数学公式,好吧,这西瓜有点难啃,丢一边先学python。现在python马马虎虎了,打算啃西瓜了。引言机器学习原创 2017-08-18 17:23:15 · 6277 阅读 · 1 评论 -
西瓜书学习笔记——(2)模型评估与选择
经验误差与过拟合错误率(error rate):分类错误的样本数占样本总数的比例 精度(accuracy):精度 = 1 - 错误率 误差(error):学习器的实际预测输出与样本的真实输出之间的差异 训练误差(training error)/经验误差(empirical error):学习器在训练集上的误差 泛化误差(generalization error):学习器在新样本上的误差 过原创 2017-09-07 14:13:15 · 1188 阅读 · 0 评论 -
机器学习——朴素贝叶斯
朴素贝叶斯分类器(Naive Bayesian Classifier)概述朴素贝叶斯是基于贝叶斯,定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。 和决策树模型相比,朴素贝叶斯分类器(Naive Bayesian Classifier, NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失原创 2018-01-11 11:17:20 · 763 阅读 · 0 评论 -
机器学习——K近邻算法
K-近邻算法(K Nearest Neighbor, KNN)概述KNN采用测量不同特征值之间的距离方法来进行分类。 KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。 优点 :精度高、对异常值不敏感、无数据输入假定 缺点 :计算复杂度高、空间复杂度高 适用数据范围: 数值型和标称型算法流原创 2017-12-22 11:00:53 · 520 阅读 · 0 评论 -
机器学习——决策树
决策树(Decision Tree)ID3算法概述决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。原创 2017-12-28 11:33:52 · 491 阅读 · 0 评论 -
机器学习——逻辑回归
逻辑回归(Logistic Regression)概述假设现在有一些数据点,用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称为回归。 利用逻辑回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。算法流程 收集数据:采用任意方法收集数据 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳原创 2018-01-25 11:26:19 · 1153 阅读 · 0 评论