- 博客(9)
- 资源 (3)
- 收藏
- 关注
原创 机器学习实战--kmeans实例讲解
前面几篇讲了机器学习中的分类,今天讲一下聚类算法–kmeans,聚类通俗地说就是将一堆数据分成几堆,属性相似的在一起(物以类聚人以群分)。 kmeans的原理十分简单,直接上步骤:我们假定将数据分成k堆,先从数据里面随机选k个点作为初始质心依次计算剩下的数据距每个质心的距离,为每个点选取距离最小的质心这就完成了一次聚类,但是效果肯定不是很好,我们针对每个堆再计算质心,得到k个新的质心再对所
2017-05-19 15:29:10 1131
原创 Logistic回归详解及案例
刚开始学习回归的时候一头雾水——线性回归linear regression,逻辑回归logistic regression和Softmax regression?线性回归是回归算法,而逻辑回归和softmax本质上是分类算法
2017-05-11 09:47:30 30247 2
原创 朴素贝叶斯分类器
kNN和决策树能给一条数据做出明确的分类,但是有时候不能明确给出,那我们就需要给出每个分类的概率估计值。现在,假设我们有一条w向量,那么要判断它属于哪个分类,需要计算在w条件下,它属于ci分类的概率。只要把所有分类的概率计算出来了,按照贝叶斯决策伦的核心思想,概率最高的那个分类,就是这个w向量,也就是这段文本所属于的分类。那么,怎么计算分类的概率呢?用到的公式: 下面我们来讨论如何计算p(ci
2017-05-09 15:04:45 344
原创 决策树算法优化(三)
在数据量很小的情况下,使用决策树能够很快的对数据进行分类,如果数据量大的话,构造决策树将耗费大量的时间,如果用创建好的决策树来进行分类能很好的解决这个问题。 使用pickle存储决策树,使用的时候直接读取。def storeTree(inputTree,filename): fw=open(filename,'wb') pickle.dump(inputTree,fw) f
2017-05-08 21:00:03 3664
原创 决策树算法实现(二)
前一篇博客讲解了决策树,并实现其代码,构造决策树是为了对实际数据进行分类,这篇博客将介绍如何用决策树进行分类。from math import logimport operatordef claShang(dataSet): #计算香浓熵 numEntries=len(dataSet) labelCounts={} for featVec in
2017-05-08 19:52:30 301
原创 决策树算法实现(一)
kNN算法简单有效,但是不能给出任何数据的基础结构信息,因此使用决策树方法处理分类问题,决策树的优势在于数据形式非常容易理解。 在构造决策树的时候,重要的一步就是选取特征作为节点,为了找到决定性的特征,划分出最好的结果,我们就要评估每个特征,评价指标是信息增益和熵,这两个概念可以参考这篇博客(http://m.blog.csdn.net/article/details?id=40736757),通
2017-05-08 18:15:45 373
原创 kNN算法及实例(二)
上一篇博客介绍了kNN算法,以及如何在一维数据中使用分类http://blog.csdn.net/congqi4525/article/details/71374484。 本篇博客将详细介绍如何对二维数据进行分类(以机器学习实战中的手写识别系统为例) 算法数据包括两部分:trainingDigits和testDigits 为了使用上一篇博客中的分类算法,需要将图片的二维数据转换成一维数据 算
2017-05-08 09:59:46 589
原创 kNN算法及实例(一)
kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。简单的分类就是待分类的数据与哪条已分类的数据相同,那么它们就属于同一个类别,但是现实中多数数据不可能完全相同,如果用这种方法,就可能导致待分类的数据找不到已经分类的相同的数据。 kNN算法从已经分类的数据中找到距离最接近的K个记录,然后取所占分类最多的那个类别。 实现的算法步骤:读取数据文件[
2017-05-07 21:35:01 14480 4
原创 centos6.5安装Hadoop2.4.1(完全分布式)
1、集群部署介绍1.1 网络环境 集群中包括2个节点:1个Master,1个Slave,节点之间局域网连接,可以相互ping通,节点IP地址分布如下: 机器名称 IP地址 Master.Hadoop 192.168.1.2 Salve1.Hadoop 192.168.1.3 Salve2.Hadoop 192.168.1.4两个节点上均是CentOS6.5系统,
2017-05-02 18:32:15 653
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人