- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 [机器学习实战]--朴素贝叶斯过滤垃圾邮件
我们将充分利用python的文本处理能力将文档切分成词向量,然后利用词向量对文档进行分类。还将构造分类器观察其在真实的垃圾邮件数据集中的过滤效果。基于贝叶斯决策理论的分类方法假设现在我们有一个数据集,它由两类数据组成,数据分布如图4-1所示。 我们现在用 p1(x,y) 表示数据点(x,y)属于类别1(图中用圆点表示的类别)的概率,用 p2(x,y) 表示数据点(x,y)属于类别2(图中用三角形表
2015-08-29 16:52:30 2675
原创 绪论(0)--机器学习与模式识别 [PRML]
模式识别领域关注的是利用计算机算法自动发现数据中的规律,以及使用这些规律采取将数据分类等行动。手写数字识别的例子,因为手写体变化多端。这个问题可以使用人工编写的规则解决,但实际往往效果很差。使用机器学习的方法可以得到好得多的结果。全书贯穿3个重要工具:概率论、决策论、信息论。都将在后续内容一一介绍。机器学习的一些基本概念 一个由 N 个数字 {x 1 , … , x N } 组成的大的集合被叫做训练
2015-08-29 16:20:37 962
原创 [机器学习实战]-决策树
有一个20个问题的游戏,参与有游戏的一方在脑海里想某个事物,其他参与者向他提问,只允许20个问题,答案只能回答对或错。问问题的人通过推断分解,逐步缩小范围。决策树的原理将和这个游戏类似。决策树处理数据时,先计算数据的不一致性,然后寻找最优方案划分数据集。直到数据集所有数据属于同一个分类。使用matplotlib注解功能,将存储树转化为容易理解的图形。 信息增益和决策树基础 熵的定义:H(p)=−
2015-08-28 15:20:27 524
原创 [MachineLearningInAction] - KNN
在有标签的数据中,输入没有标签的数据后,通过计算数据特征与样本数据进行比较,算法提取样本集中特征最相似的分类标签。一般取前K个最相似的数,这就是k-近邻算法。从K近邻算法、距离度量谈到KD树、SIFT+BBF算法实验基础python/numpy中会用到的函数: shape() shape是numpy函数库中的方法,用于查看矩阵或者数组的维素 >>>shape(arr
2015-08-26 21:51:13 1125
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人