2015年08月_码上的生活

10月 09月 08月 07月 06月 04月 03月 02月

原创 [机器学习实战]--朴素贝叶斯过滤垃圾邮件

我们将充分利用python的文本处理能力将文档切分成词向量，然后利用词向量对文档进行分类。还将构造分类器观察其在真实的垃圾邮件数据集中的过滤效果。基于贝叶斯决策理论的分类方法假设现在我们有一个数据集,它由两类数据组成,数据分布如图4-1所示。我们现在用 p1(x,y) 表示数据点(x,y)属于类别1(图中用圆点表示的类别)的概率,用 p2(x,y) 表示数据点(x,y)属于类别2(图中用三角形表

2015-08-29 16:52:30 2675

模式识别领域关注的是利用计算机算法自动发现数据中的规律,以及使用这些规律采取将数据分类等行动。手写数字识别的例子，因为手写体变化多端。这个问题可以使用人工编写的规则解决，但实际往往效果很差。使用机器学习的方法可以得到好得多的结果。全书贯穿3个重要工具：概率论、决策论、信息论。都将在后续内容一一介绍。机器学习的一些基本概念一个由 N 个数字 {x 1 , … , x N } 组成的大的集合被叫做训练

2015-08-29 16:20:37 962

原创 [机器学习实战]-决策树

有一个20个问题的游戏，参与有游戏的一方在脑海里想某个事物，其他参与者向他提问，只允许20个问题，答案只能回答对或错。问问题的人通过推断分解，逐步缩小范围。决策树的原理将和这个游戏类似。决策树处理数据时，先计算数据的不一致性，然后寻找最优方案划分数据集。直到数据集所有数据属于同一个分类。使用matplotlib注解功能，将存储树转化为容易理解的图形。信息增益和决策树基础熵的定义：H(p)=−

2015-08-28 15:20:27 524

原创 [MachineLearningInAction] - KNN

在有标签的数据中，输入没有标签的数据后，通过计算数据特征与样本数据进行比较，算法提取样本集中特征最相似的分类标签。一般取前K个最相似的数，这就是k-近邻算法。从K近邻算法、距离度量谈到KD树、SIFT+BBF算法实验基础python/numpy中会用到的函数： shape() shape是numpy函数库中的方法，用于查看矩阵或者数组的维素 >>>shape(arr

2015-08-26 21:51:13 1125

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 [机器学习实战]--朴素贝叶斯过滤垃圾邮件

原创 绪论(0)--机器学习与模式识别 [PRML]

原创 [机器学习实战]-决策树

原创 [MachineLearningInAction] - KNN

空空如也

空空如也

原创绪论(0)--机器学习与模式识别 [PRML]