自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (3)
  • 收藏
  • 关注

原创 机器学习实战--kmeans实例讲解

前面几篇讲了机器学习中的分类,今天讲一下聚类算法–kmeans,聚类通俗地说就是将一堆数据分成几堆,属性相似的在一起(物以类聚人以群分)。 kmeans的原理十分简单,直接上步骤:我们假定将数据分成k堆,先从数据里面随机选k个点作为初始质心依次计算剩下的数据距每个质心的距离,为每个点选取距离最小的质心这就完成了一次聚类,但是效果肯定不是很好,我们针对每个堆再计算质心,得到k个新的质心再对所

2017-05-19 15:29:10 1124

原创 Logistic回归详解及案例

刚开始学习回归的时候一头雾水——线性回归linear regression,逻辑回归logistic regression和Softmax regression?线性回归是回归算法,而逻辑回归和softmax本质上是分类算法

2017-05-11 09:47:30 30223 2

原创 朴素贝叶斯分类器

kNN和决策树能给一条数据做出明确的分类,但是有时候不能明确给出,那我们就需要给出每个分类的概率估计值。现在,假设我们有一条w向量,那么要判断它属于哪个分类,需要计算在w条件下,它属于ci分类的概率。只要把所有分类的概率计算出来了,按照贝叶斯决策伦的核心思想,概率最高的那个分类,就是这个w向量,也就是这段文本所属于的分类。那么,怎么计算分类的概率呢?用到的公式: 下面我们来讨论如何计算p(ci

2017-05-09 15:04:45 341

原创 决策树算法优化(三)

在数据量很小的情况下,使用决策树能够很快的对数据进行分类,如果数据量大的话,构造决策树将耗费大量的时间,如果用创建好的决策树来进行分类能很好的解决这个问题。 使用pickle存储决策树,使用的时候直接读取。def storeTree(inputTree,filename): fw=open(filename,'wb') pickle.dump(inputTree,fw) f

2017-05-08 21:00:03 3659

原创 决策树算法实现(二)

前一篇博客讲解了决策树,并实现其代码,构造决策树是为了对实际数据进行分类,这篇博客将介绍如何用决策树进行分类。from math import logimport operatordef claShang(dataSet): #计算香浓熵 numEntries=len(dataSet) labelCounts={} for featVec in

2017-05-08 19:52:30 295

原创 决策树算法实现(一)

kNN算法简单有效,但是不能给出任何数据的基础结构信息,因此使用决策树方法处理分类问题,决策树的优势在于数据形式非常容易理解。 在构造决策树的时候,重要的一步就是选取特征作为节点,为了找到决定性的特征,划分出最好的结果,我们就要评估每个特征,评价指标是信息增益和熵,这两个概念可以参考这篇博客(http://m.blog.csdn.net/article/details?id=40736757),通

2017-05-08 18:15:45 366

原创 kNN算法及实例(二)

上一篇博客介绍了kNN算法,以及如何在一维数据中使用分类http://blog.csdn.net/congqi4525/article/details/71374484。 本篇博客将详细介绍如何对二维数据进行分类(以机器学习实战中的手写识别系统为例) 算法数据包括两部分:trainingDigits和testDigits 为了使用上一篇博客中的分类算法,需要将图片的二维数据转换成一维数据 算

2017-05-08 09:59:46 579

原创 kNN算法及实例(一)

kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。简单的分类就是待分类的数据与哪条已分类的数据相同,那么它们就属于同一个类别,但是现实中多数数据不可能完全相同,如果用这种方法,就可能导致待分类的数据找不到已经分类的相同的数据。 kNN算法从已经分类的数据中找到距离最接近的K个记录,然后取所占分类最多的那个类别。 实现的算法步骤:读取数据文件[

2017-05-07 21:35:01 14440 4

原创 centos6.5安装Hadoop2.4.1(完全分布式)

1、集群部署介绍1.1 网络环境   集群中包括2个节点:1个Master,1个Slave,节点之间局域网连接,可以相互ping通,节点IP地址分布如下: 机器名称 IP地址 Master.Hadoop 192.168.1.2 Salve1.Hadoop 192.168.1.3 Salve2.Hadoop 192.168.1.4两个节点上均是CentOS6.5系统,

2017-05-02 18:32:15 648

kNN分类算法手写识别数据集

kNN分类算法手写识别数据集

2017-05-08

手写识别系统数据

手写识别系统数据

2017-05-08

kNN分类算法数据集

2017-05-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除