DataMining
忆之独秀
Engineer
展开
-
大话梯度下降Gradient Descent
版权属于:Closure原文地址:https://closure.blog.ustc.edu.cn/?p=19转载 2014-06-15 22:12:00 · 1365 阅读 · 0 评论 -
【机器学习实战之一】:C++实现K-近邻算法KNN
本文不对KNN算法做过多的理论上的解释,主要是针对问题,进行算法的设计和代码的注解。KNN算法:优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称性。工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征原创 2013-11-24 23:08:01 · 23478 阅读 · 19 评论 -
【机器学习实战之三】:C++实现K-均值(K-Means)聚类算法
聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类(类别体系是自动构建的)。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。本文要介绍一种称为K-均值(K-means)聚类的算法。之所以称之为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。原创 2015-01-08 17:18:01 · 30737 阅读 · 11 评论 -
【机器学习实战之二】:C++实现基于概率论的分类方法--朴素贝叶斯分类(Naive Bayes Classifier)
C++实现基于概率论的分类方法--朴素贝叶斯分类(Naive Bayes Classifier)原创 2014-02-22 16:53:56 · 11842 阅读 · 2 评论 -
【CUDA并行编程之六】KNN算法的并行实现
之前写了两篇文章一个是KNN算法的C++串行实现,另一个是CUDA计算向量的欧氏距离。那么这篇文章就可以说是前两篇文章的一个简单的整合。在看这篇文章之前可以先阅读前两篇文章。一、生成数据集现在需要生成一个N个D维的数据,没在一组数据都有一个类标,这个类标根据第一维的正负来进行标识样本数据的类标:Positive and Negative。#!/usr/bin/pythoni原创 2014-12-26 16:25:34 · 8493 阅读 · 8 评论 -
【推荐系统实战】:C++实现基于用户的协同过滤(UserCollaborativeFilter)
好早的时候就打算写这篇文章,但是还是参加阿里大数据竞赛的第一季三月份的时候实验就完成了,硬生生是拖到了十一假期,自己也是醉了。。。找工作不是很顺利,希望写点东西回顾一下知识,然后再攒点人品吧,只能如此了。一、问题背景二、基于用户的协同过滤算法介绍三、数据结构和实验过程设计四、代码原创 2014-10-03 20:18:53 · 9826 阅读 · 10 评论