自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (2)
  • 收藏
  • 关注

转载 R编辑器Rstudio学习笔记——基本功能与操作

为了为参加supstat夏令营,今天特地熟悉了和R语言配套的编辑器Rstudio。以前只闻其声,未见其貌,今天试用一下,发现界面简单清晰,既能帮助初学者熟悉函数,也能对复杂的程序结构进行优化,方便阅读。Rstudio界面如下所示,简单地分为四个窗口,从左至右分别是程序编辑窗口,工作空间与历史信息,程序运行与输出窗口(主界面),画图和函数包帮助窗口。主界面(Console)。主界面功能与R中相同,显示

2015-04-29 11:20:14 3797

转载 七款代码味道识别工具【简介】

代码味道识别工具 (Code Smell Detection Tools, CSDT)既可以应用于软件开发阶段,也可以应用于软件维护阶段。目前大部分IDE都集成了自动或者半自动重构工具,但是根据国外研究人员的调查发现,真正在软件开发和维护中使用重构工具的人并不多,其中有一个很重要的原因是不知道何时该重构,也就是说找不准重构时机,因此重构时机的自动识别具有很大的实用价值。很多代码味道本身就是重构时机

2014-12-20 20:37:37 633

转载 39个让你受益的HTML5教程

闲话少说,本文作者为大家收集了网上学习HTML5的资源,期望它们可以帮助大家更好地学习HTML5. 好人啊! 不过,作者原来说的40个只有39个,因为第5个和第8个是重复的。1. 五分钟入门HTML5 (Learn HTML5 in 5 Minutes!)  By Jennifer Marsman毫无疑问,HTML5是一个热门话题。如果你需要一个迅速了解HTML基础

2014-09-09 16:52:08 675

原创 在Hadoop分布式集群环境下Mahout安装和运行K-means、协同过滤实例

在Hadoop1.2.1分布式集群环境下安装Mahout0.9框架 友情提醒:大家最好通读一遍过后,在理解的基础上按照步骤一步一步设置,因为后面的会对前面的有所启示。注意:mahout运行对于环境要求很严格,JDK:jdk-7u55-linux-x64.tar,MAVEN:apache-maven-3.2.1-bin.tar,MAHOUT:mahout-distribution-0.9

2014-06-20 23:27:18 3678

转载 Python3 入门教程 简单但比较不错

Python3 入门教程 简单但比较不错作者: 字体:[增加 减小] 类型:转载 Python已经是3.1版本了,与时俱进更新教程.2.5或2.6请看上一篇文章。本文适合有Java编程经验的程序员快速熟悉Python 本文程序在windows xp+python3.1a1 测试通过. 本文提到的idle指python shell,即安装python后你在菜单看到的IDLE(

2014-06-16 00:03:23 750

原创 Hadoop生态圈简介(Hadoop Ecosystem)

Hadoop生态圈(Hadoop Ecosystem)HOMECATEGORIESTAGSLINKSGUESTBOOKABOUTLABSUBSCRIBEHadoop有一套自己强大的生态系统,并且仍在不断壮大,系统的了解这个生态系统里的各个组件对于数据分析与挖掘工作来说必定是件好事。以下为我从一个论坛上看到的有关hadoop生态系统的介绍,故摘录过来以便以后学习查看。

2014-06-13 11:10:47 2449

转载 协同过滤算法及其实现代码

Collaborative Filtering Recommendation向量之间的相似度度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。皮尔森相关系数计算公式如下:分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。因为,所以皮尔森相关系数计算公式还可以写成:当两个变量的

2014-06-10 23:58:01 1316

转载 Mahout 协同过滤 itemBase RecommenderJob源码分析

.csdn.net/heyutao007Mahout支持2种 M/R 的jobs实现itemBase的协同过滤 I.ItemSimilarityJob II.RecommenderJob 下面我们对RecommenderJob进行分析,版本是mahout-distribution-0.7 源码包位置:org.apache.mahout.cf.taste.hado

2014-06-10 23:44:35 826

转载 mahout 实用教程 (一)

mahout 实用教程 (一)                                                                            —by comaple.zhang 本文力求把mahout从使用的角度为读者建立一个框架,为后续的使用打下基础。本文为原创文章转载请注明原网址 http://blog.csdn.net/comaple,谢谢

2014-06-10 23:39:43 1277

转载 Mahout学习之Mahout简介、安装、配置、入门程序测试

标签: mahout 学习 mahout | 发表时间:2014-04-27 10:56 | 作者:wl101yjx分享到:出处:http://blog.csdn.net一、Mahout简介查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...附logo:(就是他,骑在象头上的

2014-06-10 23:34:00 742

转载 Mahout安装与配置

Mahout安装与配置Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。hadoop@ubunt

2014-06-09 23:59:19 557

转载 基于Mahout的电影推荐系统

1 Mahout介绍Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等,并且,在 Mahout 中还加入了对Apache Hadoop的支持,使这些算法可以更高效的运行在云计算环境中。

2014-06-08 00:38:47 1007

原创 Mahout的安装配置与使用

Mahout 是Apache旗下的一个机器学习和数据挖掘的分布式框架,包括聚类,分类,协同过滤,关联规则挖掘等经典的算法。     1. 安装Maven     wget http://apache.etoak.com//maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz 下载最新版本的Maven.

2014-06-08 00:22:43 687

转载 Mahout协同推荐简单实例

上篇文章介绍了协同过滤的安装与配置,这篇找了几个协同过滤的简单例子,看一下Mahout给我们提供的强大的协同过滤算法。需要新建一个基于Maven的工程,下面是pom.xml需要导入的包。123456789101112131415

2014-06-08 00:19:45 637

转载 Eclipse下mahout实现推荐的简单实例

环境:ubuntu下的eclipse数据准备:test.txt第一列为UserID ,第二列为ItemID,第三列为Preference Value 即评分[plain] view plaincopy1,101,5  1,102,3  1,103,2.5  2,101,2  2,102,2.5  2,103,5  

2014-06-08 00:05:31 603

原创 CentOS 重置root用户的密码

在开机启动的时候能看到引导目录Booting CentOS(2.6.18-238.el5) in 3 seconds ...时,然后按“e”。  2.接下来你可以看到下一个画面,选择“CentOS(2.6.18-238.el5),然后按”e" 3.接下来你可以看到另个画面,有三个选项   root(hd0,0)    kernel /vmlinuz-2.6.18-2

2014-06-06 23:24:47 615

翻译 Storm与Hadoop的相关比较,哪个更快,延时、吞吐等

这里的快主要是指的时延。storm的网络直传、内存计算,其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时,storm的流式处理,省去了批处理的收集数据的时间;因为storm是服务型的作业,也省去了作业调度的时延。所以从时延上来看,storm要快于hadoop。说一个典型的场景,几千个日志生产方产生日志文件,需要进行一些ETL操作存入一个数据库。假设利用

2014-05-30 17:29:16 1678

原创 在Ubuntu里配置eclipse具体步骤

注意:安装.zip格式的eclipse需要进行两步解压,安装步骤如下unzip eclipse-SDK-4.3.2-linux-gtk.tar.zip     tar xzvf eclipse-SDK-4.3.2-linux-gtk.tar.gz     cd eclipse     ./eclipse   //打开eclipse在eclipse 下运行hadoop 自带例子w

2014-05-29 11:03:41 833

转载 linux权限---【600,644,700,755,711,666,777】

chmod命令详解  使用权限:所有使用者  使用方式:chmod [-cfvR] [--help] [--version] mode file...  说明:  Linux/Unix 的档案存取权限分为三级 : 档案拥有者、群组、其他。利用 chmod 可以藉以控制档案如何被他人所存取。  mode :权限设定字串,格式如下 :[ugoa...][[+-=

2014-05-25 22:46:39 1058

转载 JAVA的面向对象编程--------课堂笔记

面向对象主要针对面向过程。面向过程的基本单元是函数。 什么是对象:EVERYTHING IS OBJECT(万物皆对象) 所有的事物都有两个方面:有什么(属性):用来描述对象。能够做什么(方法):告诉外界对象有那些功能。后者以前者为基础。大的对象的属性也可以是一个对象。 为什么要使用面向对象:首先,面向对象符合人类看待事物的一般规律。对象的方法的

2014-05-23 09:45:20 662

原创 Mahout使用入门

Mahout使用入门感谢:《使用mahout进行数据挖掘》http://datalife.iteye.com/blog/804146一、简介Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年

2014-05-23 09:39:30 1346

原创 用WEKA对于数据挖掘时相关算法的介绍和使用方法

数据格式编辑跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是一个二维的表格。这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。 竖行称作一个属性(Attribute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之 间的一种

2014-05-23 00:07:53 3328

转载 在eclipse下使用java调用weka

weka是很好用的机器学习库,这里就不详细介绍了。言归正传,要使用程序方式使用weka,步骤如下:一、在eclipse里新建一个java project:1.      建立工程:单击菜单中file->new->java project,在弹出对话框的project name中起任意一个名字,此处假设是wekaTest。单击Finish按钮(在对话框底部)。2.      建立pa

2014-05-22 00:57:11 585

转载 相关数据挖掘算法的调用

分类算法:      1.调用C4.5        分类算法我们会额外计算它的分类准确率,实现代码如下,有注释了,分类算法的实现很多共通之处,往后的几个 分类算法就不指明了:        必须提醒的是,设置分类属性所在行号是必须的。[java] view plaincopyprint?import weka.classifiers.*;  import weka

2014-05-20 16:34:22 954

原创 Ubuntu虚拟机搭建HDFS时常遇到的问题及相关解决办法

Ubuntu虚拟机搭建HDFS时常遇到的问题及相关解决办法我通关学习搭建hadoop节点集群时,遇到的各种问题有一个简短的总结。相信这会是很多跟我一样,刚刚接触或者学习hadoop的朋友们会在学习的过程中经常碰到的问题。希望一下的总结能够对大家的学习有所帮助。以下所有的问题都会导致你的分布式系统报错或者进程缺失。第一:在/hadoop-1.2.1/conf/文件下,进行分布式文件配置时

2014-04-30 11:51:35 951

原创 在 Ubuntu12.04 上安装Hadoop-1.2.1 (讲解的非常详细)

在 Ubuntu12.04 上安装Hadoop-1.2.1 (讲解的非常详细)实践环境 :Ubuntu12.04+jdk1.7.0_55+hadoop-1.2.1 (两台虚拟机master和slave1)机器名        IP                          作用Ubuntu64位    192.168.114.128        NameNode 、 ma

2014-04-20 22:57:11 674

原创 Linux操作常用命令学习总结

Linux操作命令:http://linux.chinaitlab.com/special/linuxcom/一、常用的Linux命令切换用户:su修改密码:passwd清除屏幕:clear关闭系统:shutdown -hy 0   (远程操作时慎用!)重启系统:shutdown -ry 0   或者   reboot   eg:shutdown -h now 立刻关机

2014-04-13 21:43:27 1340

转载 在 Ubuntu 上安装Hadoop 教程

在 Ubuntu 上安装Hadoop 教程实践环境 :U buntu8.04+jdk1.6+hadoop-0.20.1( 三台实体机 )机器名        IP                          作用Ubuntu01   192.168.0.4        NameNode 、 master 、 jobTrackerUbuntu02   192.168.0.

2014-04-11 23:31:42 1087

VMware安装Ubuntu12.04具体步骤详细图解

每一步都写得很详细都配有图解说明。按部就班就可以完成了,希望对初学者有所帮助

2014-04-21

在 Ubuntu12.04 上安装Hadoop-1.2.1 (讲解的非常详细)

自己这一个礼拜搭建成功后,重新截图总结,写出一份很详细的安装Hadoop 集群的文档,希望可以帮助到有需要的朋友,共同进步!

2014-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除