自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (1)
  • 收藏
  • 关注

原创 Mahout中基于项目的CF主要步骤

这里只是记录整个算法的主要流程,中间没有涉及到具体的细节。假设原始的数据集的格式如下:第一步:生成用户向量(user-vector),最终输出结果为,这个vector记录了这个userId打过分的所有项目的打分值。第二步:生成项目向量(item-vector),map的输入为第一步的输出,这一步最后的输出为,这个vector记录了所有对这个itemId打过分的userId,以及对应的打

2013-04-12 15:11:43 626

原创 Mahout之k-means算法源码分析

org.apache.mahout.clustering.syntheticcontrol.kmeans.run(Configuration conf, Path input, Path output,DistanceMeasure measure, int k, double convergenceDelta,int maxIterations),这是我们分析的起点:publ

2013-03-28 14:16:56 1229 1

原创 mahout 0.6基于Item的CF代码分析

phase1: convert items to an internal index     这步主要是将itemId转成一个int。     input:用户评分文件(这也是我们最原始的输入了),格式一般为:userId \t itemId \t score。     map:(index, itemId)     reduce: (index, itemId)

2013-03-28 14:11:16 681

转载 hadoop中mapreduce部分执行流程

本文转自:http://www.blogjava.net/shenh062326/archive/2011/01/14/342959.html概括Hadoop包括hdfs与mapreduce两部分,在试用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念       mapreduce整体上可以分为这么几条执

2013-03-28 11:58:26 595

原创 Hadoop RPC源码分析之Server

Server.Listener内部类这个内部类监听服务器Socket,看是否有来自客户端的连接,读取通道中的数据(实际上是调用Connction的方法来读取数据的).内部使用了readThreads个Listener.Reader线程来读取所有的请求数据,每个Reader线程中有一个 Selector readSelector成员变量,在这个readSelector上面可以注册多个Sock

2013-01-14 13:37:41 458

原创 Hadoop RPC源码分析之Client

这里参考了文章:http://blog.csdn.net/shirdrn/article/details/4571445从Client如何向Server发送一个Call入手,先看下函数:public Writable call(Writable param, ConnectionId remoteId) throws InterruptedException, IOExcep

2013-01-09 22:22:26 460

转载 交换二叉树左右节点

转自:http://blog.csdn.net/hoken2020856/article/details/5732406BiNode* Exchange(BiNode* T){ BiNode* p; if(NULL==T || (NULL==T->lchild && NULL==T->rchild)) return T; p = T->lchild; T->lchil

2013-05-22 23:01:57 682

转载 二叉树的非递归遍历

转自:http://www.cnblogs.com/dolphin0520/archive/2011/08/25/2153720.html#commentform二叉树是一种非常重要的数据结构,很多其它数据结构都是基于二叉树的基础演变而来的。对于二叉树,有前序、中序以及后序三种遍历方法。因为树的定义本身就是递归定义,因此采用递归的方法去实现树的三种遍历不仅容易理解而且代码很简洁。而对于

2013-05-22 22:37:10 434

原创 小小笔记

1. eclipse中无法导入sun.misc.BASE64Decoder、sun.misc.BASE64Encoder类    右键项目-》属性-》java bulid path-》jre System Library-》access rules-》resolution选择accessible,下面填上** 点击确定即可!

2013-05-14 22:02:54 459

转载 判断一个单链表是否有环及环的链接点

给定一个单链表,只给出头指针h1、如何判断是否存在环2、如何知道环的长度3、如何找出环的连接点在哪里4、带环链表的长度是多少1、对于问题1,使用追赶的方法,设定两个指针slow、fast从头指针开始,每次分别前进1步、2步。如存在环则两者相遇,如不存在环,fast遇到NULL退出。 2、对于问题2,记录下问题1的碰撞点p,slow、fast从该点开始,再次碰撞所走

2013-05-04 20:21:21 463

转载 有1000个瓶子,其中有999瓶是水,1瓶是毒药

转自:http://hi.baidu.com/ezplot/item/c82e4ae0b6559bf72b09a4b5有 1000 个一模一样的瓶子,其中有 999 瓶是普通的水,有一瓶是毒药。任何喝下毒药的生物都会在一星期之后死亡。现在,你只有 10 只小白鼠和一星期的时间,如何检验出哪个瓶子里有毒药?把瓶子从 0 到 999 依次编号,然后全部转换为 10 位二进制

2013-04-06 19:49:07 14143

原创 运行hadoop的WordCount程序——编译,打包,运行

1.hadoop程序编译,奇怪,用户主目录用~来代替时会报错javac -classpath /home/hejun/app/hadoop/hadoop-core-1.0.1.jar:/home/hejun/app/hadoop/lib/commons-cli-1.2.jar -d . WordCount.java 2.打包jar -cvf wordcount.ja

2013-04-03 12:59:16 597

原创 ubuntu 为Apache Hadoop源码建立Eclipse项目

1.安装svn    sudo apt-get install svn 2 安装 Ant     1. 到Apache官网下载最新版本的ant:http://ant.apache.org/bindownload.cgi    2. 解压下载下来的.tar.gz文件: tar -xf apache-ant-1.8.2-bin.tar.gz (可能会要求输入密码

2013-04-03 12:57:32 567

原创 Mouhout运行k-means算法

1 运行$hadoop fs -mkdir testdata$hadoop fs -put  xxx.data testdata$hadoop jar mahout-examples-0.6-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job2 查看运行结果

2013-04-03 12:56:55 703

原创 linux下搭建hadoop集群问题备忘录

1.如何让/etc/profile文件修改后立即生效方法1:让/etc/profile文件修改后立即生效 ,可以使用如下命令:# .  /etc/profile注意: . 和 /etc/profile 有空格方法2:让/etc/profile文件修改后立即生效 ,可以使用如下命令:# source /etc/profile附:Linux中sour

2013-04-03 12:32:50 572

转载 C++虚函数

什么是虚函数?简单地说,那些被virtual关键字修饰的成员函数,就是虚函数。虚函数的作用,用专业术语来解释就是实现多态性(Polymorphism),多态性是将接口与实现进行分离;用形象的语言来解释就是实现以共同的方法,但因个体差异而采用不同的策略。下面来看一段简单的代码class A{public:void print(){ cout<<”This is A”<<endl;}};c

2013-04-02 21:42:02 428

转载 VMWare安装Hadoop集群

参考:http://wenku.it168.com/d_000049179.shtml1. 机器配置共有三台机器,主机名为node1,node2,node3                ip                      子网掩码           网关node1 : 192.168.10.1     255.255.255.0   192,168.10.2

2013-04-01 22:37:02 784

原创 Todo List

1. 归并排序代码实现2.树的前序遍历的递归和非递归的可执行程序3.图的两种遍历方式

2013-04-01 12:16:38 451

转载 进程的通信方式

进程的通信方式    (1)管道(Pipe):管道可用于具有亲缘关系进程间的通信,允许一个进程和另一个与它有共同祖先的进程之间进行通信。  (2)命名管道(named pipe):命名管道克服了管道没有名字的限制,因此,除具有管道所具有的功能外,它还允许无亲缘关系进程间的通信。命名管道在文件系统中有对应的文件名。命名管道通过命令mkfifo或系统调用mkfifo来创建。  (3)信号(

2013-03-28 17:59:08 385

原创 运行mahout0.6 hadoop版本的CF

1准备数据集这里使用了movieLen的数据集,下载地址: http://www.grouplens.org/node/73 这里选取了那个1m的数据集下载之后还要写个小程序将格式转化成csv格式的,才能在作为hadoop的输入package com.dataset.format.convert;import java.io.BufferedReader;

2013-03-28 14:14:11 588

转载 MapTask执行过程

Hadoop集群中分主节点master节点和slave节点,master节点监控slave节点。master和slave之间通过ssh协议进行通信。       master节点上部署有JobTracker和NameNode,当然也可以部署TaskTracker和DataNode。slave节点上部署TaskTracker和DataNode节点。JobTracker监控TaskTracke

2013-03-27 22:25:27 705

转载 Hadoop面试题

Q1. Name the most common InputFormats defined in Hadoop? Which one is default ? Following 2 are most common InputFormats defined in Hadoop - TextInputFormat- KeyValueInputFormat- SequenceFileI

2013-03-27 21:50:57 619

原创 红黑树

红黑树是一种自平衡二叉查找树,是在计算机科学中用到的一种数据结构,典型的用途是实现关联数组。它是在1972年由鲁道夫·贝尔发明的,他称之为"对称二叉B树",它现代的名字是在 Leo J. Guibas 和 Robert Sedgewick 于1978年写的一篇论文中获得的。它是复杂的,但它的操作有着良好的最坏情况运行时间,并且在实践中是高效的: 它可以在O(log n)时间内做查找,插入和删除

2013-03-27 20:03:21 402

转载 java.util.concurrent介绍(转)

java.util.concurrent介绍    java.util.concurrent 包含许多线程安全、测试良好、高性能的并发构建块。不客气地说,创建 java.util.concurrent 的目的就是要实现 Collection 框架对数据结构所执行的并发操作。通过提供一组可靠的、高性能并发构建块,开发人员可以提高并发类的线程安全、可伸缩性、性能、可读性和可靠性。

2013-03-27 19:53:06 471

转载 各种排序算法的稳定性和时间复杂度小结

本文转自:http://blog.csdn.net/hkx1n/article/details/3922249选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法,冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法。冒泡法:  这是最原始,也是众所周知的最慢的算法了。他的名字的由来因为它的工作看来象是冒泡:  复杂度为O(n*n)。当数据为

2013-03-26 14:16:15 467

原创 concurrentHashMap与Collection.SysnchronizedMap,HashMap与TreeMap

HashMap和TreeMap (转自:http://blog.csdn.net/forwayfarer/article/details/2922918)1.AbstractMap抽象类和SortedMap接口AbstractMap抽象类:覆盖了equals()和hashCode()方法以确保两个相等映射返回相同的哈希码。如果两个映射大小相等、包含同样的键且每个键在这两个映

2013-03-26 13:46:57 890

转载 JVM垃圾回收(GC)原理

本文转自:http://chenchendefeng.iteye.com/blog/455883一、相关概念 基本回收算法 1. 引用计数(Reference Counting) 比较古老的回收算法。原理是此对象有一个引用,即增加一个计数,删除一个引用则减少一个计数。垃圾回收时,只用收集计数为0的对象。此算法最致命的是无法处理循环引用的问题。 2. 标记-清

2013-03-23 15:29:24 486

转载 Java虚拟机原理、内存分配和回收机制

本文转自:http://quding0308.iteye.com/blog/1260260        通常情况下Java编译过的代码是一些class文件,Java虚拟机在执行代码的时候,首先解析Class,查找该类的方法、常量,这些对于常规情况下都编译成二进制的代码保存在jar文件中,而对于Java的反射,VM的类加载器需要动态的查找这些类名,虽然节省了编译时间,但是运行时的查找大

2013-03-23 12:49:42 439

转载 数据库事务隔离级别

本文转自:http://singo107.iteye.com/blog/1175084数据库事务的隔离级别有4个,由低到高依次为Read uncommitted 、Read committed 、Repeatable read 、Serializable ,这四个级别可以逐个解决脏读 、不可重复读 、幻读 这几类问题。√: 可能出现    ×:

2013-03-23 11:58:19 353

原创 面试常见基础题整理

1 线程和进程区别和联系,什么是“线程安全”简而言之,一个程序至少有一个进程,一个进程至少有一个线程. 线程的划分尺度小于进程,使得多线程程序的并发性高。另外,进程在执行过程中拥有独立的内存单元,而多个线程共享内存,从而极大地提高了程序的运行效率。线程在执行过程中与进程还是有区别的。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行,必须依

2013-03-21 11:02:21 435

原创 面试算法题整理

1. 字符串匹配问题题目描述:假设两个字符串中所含有的字符和个数都相同我们就叫这两个字符串匹配,比如:abcda和adabc,由于出现的字符个数都是相同,只是顺序不同,所以这两个字符串是匹配的。    要求高效实现下面的函数:boolen Is_Match(char *str1,char *str2)。分析:这个问题可以先排序再比较,也可以利用hash表进行判断。这里给出一种hash表

2013-03-21 10:47:45 426

转载 sequencefile处理小文件实例

本文转自:http://blog.csdn.net/liuxiaochen123/article/details/7815562WholeFileRecordReader:package com.pzoom.mr.sequence;import java.io.IOException;import org.apache.hadoop.conf.Configuration;im

2013-03-20 15:53:55 477

原创 Eclipse相关tips

1. 如何知道Eclipse的版本Eclipse 3.1 版本代号 IO 【木卫1,伊奥】  Eclipse 3.2 版本代号 Callisto 【木卫四,卡里斯托 】  Eclipse 3.3 版本代号 Eruopa 【木卫二,欧罗巴 】  Eclipse 3.4 版本代号 Ganymede 【木卫三,盖尼米德 】  Eclipse 3.5 版本代号 Galileo 【伽

2013-03-12 14:40:36 316

转载 25匹马问题

25匹马.裁判表坏了, 不知道具体时间. 只知道顺序.每次只能跑, 5匹马.问要跑几次, 在能判断出前三名. 1、分5组进行5场比赛,排出每组的1、2、32、5个组的第一名进行第6场比赛,确定第一名3、用第6场比赛的2、3名,加第6场中第1名那组的2、3名,加第6场中第2名那组的第2名共5匹马进行第7场比赛,第7场比赛的1、2名即所有排名的第2、

2013-03-12 14:29:29 481

原创 如何固定td的高度

加个css就能搞定,你的意思是先把td固定住,然后输入的内容td装不下了就变成...是吧!把这个加到你的css文件里.ctltable{border-collapse: collapse;table-layout:fixed}.ctltable td {text-overflow:ellipsis;overflow:hidden;white-space: nowra

2013-03-12 14:28:09 1197

原创 Nutch学习资料

gTheNutchCrawler 3. DistributedWebDB:    http://wiki.apache.org/nutch/DistributedWebDB 4. NutchHadoopTutorial:    http://wiki.apache.org/nutch/NutchHadoopTutorial

2012-05-22 15:00:53 60

原创 Nutch学习资料

gTheNutchCrawler 3. DistributedWebDB:    http://wiki.apache.org/nutch/DistributedWebDB 4. NutchHadoopTutorial:    http://wiki.apache.org/nutch/NutchHadoopTutorial

2012-05-22 15:00:53 61

Python核心编程-中文第二版-绝对带目录

Python核心编程-中文第二版-有目录

2014-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除