自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 机器学习工具:scikit-learn/Weka

开源机器学习工具scikit-learn入门 Scikit-Learn是基于Python的机器学习模块,基于BSD开源许可证。这个项目最早由DavidCournapeau 在2007 年发起的,目前也是由社区自愿者进行维护。 Scikit-Learn的官方网站是http://scikit-learn.org/stable/,在上面可以找到相关的Scikit-

2017-04-05 17:56:32 841

转载 机器学习算法汇总:人工神经网络、深度学习及其它

学习方式 根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。 监督式学习: 在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,

2017-03-22 15:46:12 757

原创 Baysian Network 贝叶斯网络

待建设…

2017-03-13 18:48:38 519

原创 R语言与统计分析

待建设……

2017-03-13 18:39:53 306

原创 回归分析

线性回归和逻辑回归  待建设……

2017-03-13 17:15:55 242

原创 mahout bayesian

Bayesian算法是一种利用概率统计知识进行分类的算法,在许多场合,朴素贝叶斯的分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。这个算法是在贝叶斯定理的基础上发展而来的,贝叶斯定理假设不同属性值之间是不关联的。但是在现实生活中的很多情况下,这种假设是不成立的,从而会导致该算法的准确度有所下降。

2017-03-13 12:44:54 373

原创 mahout 分类算法

数据挖掘有很多的领域,分类是其中之一,分类就是把一些新的数据项映射到给定类别的中的某一个类别,比如当我们发表一篇文章的时候,就可以自动的把这篇文章划分到某一个文章类别,一般的过程是根据样本的数据利用一定的分类算法,得到分类规则,新的数据过来就依据该规则进行类别的划分。         分类在数据挖掘中是一项非常重要的任务,有很多的用途。比如预测,即从历史的样本数据中推算出未来数据的趋向。项目期间

2017-03-13 09:32:40 1390

原创 项目期间hadoop完全分布式安装配置过程

主要步骤: 修改每个主机上的名字,并配置各个主机的ip 创建hadoop用户 配置hosts文件 安装jdk 配置ssh免密码连入 解压安装Hadoop文件 修改各种site文件 配置Hadoop-env.sh文件 配置masters和slaves文件 格式化namenode,并启动hadoop 关闭hadoop

2017-03-10 19:40:47 631

原创 mahout k-means实战

关于聚类算法,在参与项目期间,真正用的比较多和有具体操作的是kmeans算法,因此这里就只说下mahout  kmeans整体运行的IPO以及一些细节问题。

2017-03-10 14:38:42 550

原创 mahout k-means

Kmeans算法是应用的最广泛的基于划分的算法,实验室有个小伙伴最后的毕业论文也是基于kmeans聚类进行研究的(咦。。。好像前言不搭后语)。        kmeans算法的大致思想是:首先随机选取K个数据对象,每个数据对象分别代表了K个簇的中心点,对于剩下的每个对象,分别计算该对象到各个中心点的距离,并将他们分配给最近的簇,然后重新计算各个簇的中心。重复这个过程,直至聚类准则函数收敛。准则函

2017-03-09 18:45:09 394

原创 mahout中的聚类算法(Canopy的主场)

聚类算法的定义:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。(From:百度百科)现实生活中有很多聚类的例子,比如对疾病的分类,或者所谓的物以类聚,人以群分都是聚类的直接体现。 聚类算法在mahout中分为很多种,例如canopy,kmeans,层次聚类等。传统的聚类算法对

2017-03-09 16:27:11 642

原创 终于有自己的博客了!

在校期间,曾参与实验室健康大数据项目的研发,没能及时把参与的部分记录和分享,今天突然心血来潮,决定把这些知识和过程回忆并整理。

2017-03-09 16:17:24 220

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除