Lucky_youth-CSDN博客

原创机器学习实战--kmeans实例讲解

前面几篇讲了机器学习中的分类，今天讲一下聚类算法–kmeans，聚类通俗地说就是将一堆数据分成几堆，属性相似的在一起（物以类聚人以群分）。 kmeans的原理十分简单，直接上步骤：我们假定将数据分成k堆，先从数据里面随机选k个点作为初始质心依次计算剩下的数据距每个质心的距离，为每个点选取距离最小的质心这就完成了一次聚类，但是效果肯定不是很好，我们针对每个堆再计算质心，得到k个新的质心再对所

2017-05-19 15:29:10 1131

原创 Logistic回归详解及案例

刚开始学习回归的时候一头雾水——线性回归linear regression，逻辑回归logistic regression和Softmax regression？线性回归是回归算法，而逻辑回归和softmax本质上是分类算法

2017-05-11 09:47:30 30247 2

原创朴素贝叶斯分类器

kNN和决策树能给一条数据做出明确的分类，但是有时候不能明确给出，那我们就需要给出每个分类的概率估计值。现在，假设我们有一条w向量，那么要判断它属于哪个分类，需要计算在w条件下，它属于ci分类的概率。只要把所有分类的概率计算出来了，按照贝叶斯决策伦的核心思想，概率最高的那个分类，就是这个w向量，也就是这段文本所属于的分类。那么，怎么计算分类的概率呢？用到的公式：下面我们来讨论如何计算p(ci

2017-05-09 15:04:45 344

原创决策树算法优化(三)

在数据量很小的情况下，使用决策树能够很快的对数据进行分类，如果数据量大的话，构造决策树将耗费大量的时间，如果用创建好的决策树来进行分类能很好的解决这个问题。使用pickle存储决策树，使用的时候直接读取。def storeTree(inputTree,filename): fw=open(filename,'wb') pickle.dump(inputTree,fw) f

2017-05-08 21:00:03 3664

原创决策树算法实现(二)

前一篇博客讲解了决策树，并实现其代码，构造决策树是为了对实际数据进行分类，这篇博客将介绍如何用决策树进行分类。from math import logimport operatordef claShang(dataSet): #计算香浓熵 numEntries=len(dataSet) labelCounts={} for featVec in

2017-05-08 19:52:30 301

原创决策树算法实现(一)

kNN算法简单有效，但是不能给出任何数据的基础结构信息，因此使用决策树方法处理分类问题，决策树的优势在于数据形式非常容易理解。在构造决策树的时候，重要的一步就是选取特征作为节点，为了找到决定性的特征，划分出最好的结果，我们就要评估每个特征，评价指标是信息增益和熵，这两个概念可以参考这篇博客(http://m.blog.csdn.net/article/details?id=40736757)，通

2017-05-08 18:15:45 373

原创 kNN算法及实例(二)

上一篇博客介绍了kNN算法，以及如何在一维数据中使用分类http://blog.csdn.net/congqi4525/article/details/71374484。本篇博客将详细介绍如何对二维数据进行分类（以机器学习实战中的手写识别系统为例）算法数据包括两部分：trainingDigits和testDigits 为了使用上一篇博客中的分类算法，需要将图片的二维数据转换成一维数据算

2017-05-08 09:59:46 589

原创 kNN算法及实例(一)

kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。简单的分类就是待分类的数据与哪条已分类的数据相同，那么它们就属于同一个类别，但是现实中多数数据不可能完全相同，如果用这种方法，就可能导致待分类的数据找不到已经分类的相同的数据。 kNN算法从已经分类的数据中找到距离最接近的K个记录，然后取所占分类最多的那个类别。实现的算法步骤：读取数据文件[

2017-05-07 21:35:01 14480 4

原创 centos6.5安装Hadoop2.4.1(完全分布式)

1、集群部署介绍1.1 网络环境　　集群中包括2个节点：1个Master，1个Slave，节点之间局域网连接，可以相互ping通，节点IP地址分布如下：机器名称 IP地址 Master.Hadoop 192.168.1.2 Salve1.Hadoop 192.168.1.3 Salve2.Hadoop 192.168.1.4两个节点上均是CentOS6.5系统，

2017-05-02 18:32:15 653

congqi4525的博客