自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (3)
  • 收藏
  • 关注

转载 什么是大数据?漫谈大数据仓库与挖掘系统

什么是大数据?漫谈大数据仓库与挖掘系统任何比较关注业界新闻的人,都会知道近两年数字信息领域的几个关键字: 移动端、LBS、SNS和大数据(Big Data)。前边三个,大家应该是很熟悉的,因为身边早已充斥着相关的应用。唯独最后一个大数据,在大部分人眼中却是非常陌生的,除了知道如数据挖掘、智能推荐等几个看似非常高深的词汇之外,却是不知其里的。 本文作者忽悠真人是阿里巴巴集团数据平

2014-01-22 22:33:29 1669

原创 Nutch1.7 generator源码阅读

以下主要介绍了下generate的第一个MapReduce首先看一下generate的Map做了些什么工作。 public void map(Text key, CrawlDatum value, OutputCollector output, Reporter reporter) throws IOException { Text url

2014-01-19 20:50:02 911

原创 hadoop的shuffle和排序

1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutputBuffer,即上图的buffer in memor

2014-01-17 22:32:13 1196

原创 三种方法遍历Map集合 +遍历Set集合

Map集合的遍历1、 public static void work(Map map) { Collection c = map.values(); Iterator it = c.iterator(); for (; it.hasNext();) { System.out.println(it.next

2014-01-17 20:33:25 1169

原创 ubuntu 12.04 安装惠普打印机

hp官方没有提供linux的驱动程序。官方提供了地址http://hplipopensource.com/hplip-web/index.html。该地址有相关下载的驱动,安装方法。当然这个网站是英文的,其实这些英文很简单的。

2013-12-19 11:58:01 1608

原创 ant 的import 的使用

按照 Apache官网知道 import标签是将原来已经存在的xml文件进行复用。比如:这句话的作用就是将 当前目录下的build2.xml添加到当前xml文件中。或许你会碰到这样的问题:import  所带来的关于重写的问题。具体如下所示:build.xml 和 build2.xml 含有相同的 target  ,那使用的target 是哪个?如下例子所述build.xml

2013-12-18 20:23:43 3908 2

原创 java 实现双向链表(数据结构)

Node节点数据:package com.model;public class Node { public String name ; public String value ; public Node(String name , String value){ this.name = name; this.value = value; } public Node(){

2013-12-11 17:32:21 812

原创 如何让你的作业在 Hadoop集群中真正实现分布式运行

如何让你的作业在 Hadoop集群中真正实现分布式运行 :                  【任何非独立的JAR文件都必须打包到JAR文件的lib目录中。(这与Java的web application archive或WAR文件类似,不同的是,后者的JAR文件放在WEB-INF/lib子目录下的WAR文件中)】,天哪,看书不仔细就会遗留重要问题,网上的都是浮云呀。打包的时候把第三方包放到li

2013-12-10 20:35:40 721 1

原创 ubuntu hadoop 下ssh 登陆不了 connect to host localhost port 22:Connection refused

Ubuntu下测试ssh时使用ssh localhost 命令,出现错误提示connect to host localhost port 22:Connection refused 造成这个错误的原因可能是ssh-server未安装或者未启动。ubuntu 11.10 默认安装openssh-client,但是木有安装server 运行 ps -e | grep ssh,查看是否有

2013-12-10 20:33:26 1652

原创 hadoop 安装eclipse 和 编译生成插件使eclipse可以建立Map/Reduce工程

1、去eclipse官网下载标准版,解压到指定文件夹。      启动eclipse,提示说“无法找到JAVA_HOME”,大概意思是这个。因为你的jdk是单独装的,倘若jdk,eclipse都是通过linux下载可能就没有这个问题。所以就在/etc/profile 文件中末尾添加:export JAVA_HOME="/opt/SoftBasic/jdk1.7.0_45"expor

2013-12-10 20:29:18 919

原创 hadoop 的Configuration 配置的使用。

Hadoop的配置类是由资源指定的,资源可以由一个String或Path来指定: String:在classpath中寻找path: 直接从本地文件系统中查找Configuration类无处不在,初学Hadoop的人都知道配置参数是在core-site.xml文件中进行的,所以这个类的目的也就明确了,默认情况下hadoop的Configuration类会按照顺序加载两个文件

2013-12-09 17:46:12 3214

原创 hbase 下mapreduce 读取hbase中数据

简单小程序演示如何在Hbase 中编写mr程序:hbase 中已经存在的数据:hbase(main):009:0> scan 'test'ROW COLUMN+CELL row1

2013-12-07 21:46:43 3768 1

原创 Hadoop 序列化对象(序列化和反序列化)

简单讲解如何序列化和反序列化。啥都不说了,直接粘代码:package com.test;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.T

2013-12-07 21:32:12 1782

原创 nutch 产生的目录说明

nutch 产生的目录说明:segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系,我指定-depth是3层,这个目录下就有3层。  里面有6个子目录  content,下载页面的内容;  crawl_fetch,下载URL的状态内容;  crawl_generate,待下载的URL的集合,在generate任务生成时和下载过程中持续分析出来; 

2013-11-14 20:31:06 530

转载 Linux下使用Eclipse开发Hadoop应用程序

========================在eclipse配置hadoop====================1.在eclipse上安装hadoop插件复制hadoop安装目录/contrib/eclipse-plugin/hadoop-0.20.203.0-eclipse-plugin.jar到eclipse安装目录/plugins/ 下2.重启eclipse,配置ha

2013-10-29 21:44:42 1378

原创 Linux 配置Hadoop的方法 (修改用户Root权限,设置root密码)

1、下载JDK 到官网去下载。        tar  -zxf  jdkXXXX.tar.gz 解压到指定的文件夹。最好是进入到该文件夹下,运行该命令 。2、配置JDK的环境变量。     运行   vim   ~/.bashrc  打开该文件,在末尾增加:     export JAVA_HOME="/opt/SoftBasic/jdk1.7.0_45"     expor

2013-10-21 22:44:41 9365

原创 windows 下的hadoop的安装

1、去网站下载最新的cygwin 版本http://cygwin.com/install.html。2、下载jdk6及以上版本。3、下载hadoop的稳定版本。好的,下载的东西就这么多了。下来开始安装。一、cygwin的安装。按照图中说明选择下一步。需要说明的是:在Root Directory 中的目录,最好不要有空格。这里的路径选择为 D:\SoftInsta

2013-10-14 20:53:02 1109

原创 ssh localhost 登陆后 ls 命令不能使用,无效的原因

今天在安装windows下面的hadoop时碰到如下这种情况,发现在cygwin中 ls who等命令不能识别。环境变量已经设置过了,但是还是不能运行。登陆前是可以的。可以发现是在ssh 登陆以后造成的。难道登陆后环境变量变了吗?所以打印出环境变量如下。看来PATH确实变化了。那么是怎么变化的,那个地方修改了这个PATH的值?终于我想起来了,是在\cygwin\etc\profile中

2013-10-14 17:21:36 3286

原创 Oracle 权限问题

Oracle安装会自动锁生成sys用户和system用户1》sys用户是超级用户, 具有最高权限。具有sysdba的角色,有create database 的权限。该用户默认的密码是manger2》system 用户是 管理操作员,权限也很大 。具有sysoper角色,没有create database的权限。该用户默认的密码是change_on_install安装的时候的密码都是

2013-09-28 23:23:26 740

原创 一些比较容易混淆的概念

并行和并发的概念 1、“并行”是指无论从微观还是宏观,二者都是一起执行的。 2、而“并发”在微观上不是同时执行的,只是把时间分成若干段,使多个进程快速交替的执行,从宏观外来看,好像是这些进程都在执行。从以上本质不难看出,“并发”执行,在多个进程存在资源冲突时,并没有从根本提高执行效率。云计算 云计算是并行计算(Parallel Computing)、分布式计算(Distri

2013-09-28 22:53:43 875

原创 Flex 中有由于控件的属性includeInLayout导致滚动条不能出现!

今天调试Flex界面时发现一个很奇怪的问题:    如上代码所示。最终界面上,无论这个控件大小如何,当这个控件因为页面中处于它的上方的控件的挤压,不能在屏幕显示时,始终看不见滚动条。从而这个控件会看不见!   经过各种代码排除,调试工作,终于发现原来是includeInLayout属性在捣乱!  经上网查证: includeInLayout :(true/false)

2013-08-08 23:37:30 1182

转载 用例之间的关系

用例之间的关系在画用例图的时候,理清用例之间的关系是重点。用例的关系有泛化(generalization)、扩展(extend)和包含(include)。其中include和extend最易混淆。下面我们结合实例彻底理清三者的关系。基本概念用例图(Use Case Diagram):用例图显示谁是相关的用户,用户希望系统提供什么服务(用例),以及用例之间的关系图

2013-07-04 18:10:13 2911

原创 (泛化,实现,依赖,关联(聚合,组合))

UML的构造快包含3种: (1) 事物(4种):结构事物,行为事物,分组事物,注释事物(2) 关系(4种):泛化关系,实现关系,依赖关系,关联关系(3) 图(10种):用例图,类图,对象图,包图,组件图,部署图,状态图,活动图,序列图,协作图事物是对模型中最具代表性的成分的抽象;关系把事物结合在一起;图聚集了相关的事物。  (2) 关系(4种)UML 中类与类, 类

2013-07-01 19:39:46 630

原创 Swing 中卡片布局管理的简单使用

import java.awt.*;import java.awt.event.ActionEvent;import java.awt.event.ActionListener;import javax.swing.*;public class CardLay extends JFrame implements ActionListener{ CardLayout

2013-06-25 21:27:46 1000

转载 java中equals方法的用法以及==的用法(转)

equals 方法是 java.lang.Object 类的方法。有两种用法说明:(1)对于字符串变量来说,使用“==”和“equals()”方法比较字符串时,其比较方法不同。“==”比较两个变量本身的值,即两个对象在内存中的首地址。“equals()”比较字符串中所包含的内容是否相同。比如:String s1,s2,s3 = "abc", s4 ="abc" ;s1

2013-06-16 19:06:51 486

spider爬虫类文件

用C写的非常好,可以同时进行深度爬虫。有利于初学者进行学习研究

2013-05-30

C#实现的电子相册源代码

C#实现的电子相册源代码,能实现简单地载入。上下翻页等基本功能

2013-01-27

西安交通大学 操作系统复习资料

自己整理的操作系统考试资料!结合老师课件和课本总结得出!

2013-01-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除