自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

豹先生

思而后定,持之以恒

  • 博客(13)
  • 资源 (5)
  • 收藏
  • 关注

转载 nutch 插件 实例2

view plainpackage com.sg123.nutch.plugin.parse.html;    import java.util.Enumeration;  import java.util.Properties;    import org.apache.hadoop.conf.Configuration;  import org.ap

2011-11-30 18:18:18 896

转载 Nutch插件开发

首先说明的是这个文章只是我实现一个Nutch插件的过程,至于Nutch插件机制的介绍就不在此说明,网上有很多关于Nutch插件机制的文章,可以自己查找。实现Nutch插件,可以参考Nutch中自带的插件的配置方法,我这里实现的插件是index-field,是主要功能是在索引中加入几个字段,以满足我们业务的需求。下面介绍实现过程:1. 插件src的目录结构插件的源码文件一般放在src/p

2011-11-30 18:10:19 1316

转载 淘宝海量数据技术架构解析(做为hadoop集群技术架构参考)

淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研

2011-11-25 17:48:48 2319

翻译 Sqoop User Guide (v1.3.0-cdh3u2)(sqoop用户手册)2

6. Sqoop ToolsSqoop ships with a help tool. To display a list of all available tools, type the following command:sqoop提供了帮助工作,可以使用下面命令查看$ sqoop helpusage: sqoop COMMAND [ARGS]Available comm

2011-11-18 14:38:07 110

翻译 Sqoop User Guide (v1.3.0-cdh3u2)(sqoop用户手册)1

1. IntroductionSqoop is a tool designed to transfer data between Hadoop and relational databases. You can use Sqoop to import data from a relational database management system (RDBMS) such a

2011-11-18 14:36:53 2190

翻译 Sqoop User Guide (v1.3.0-cdh3u2)(sqoop用户手册)1

1. IntroductionSqoop is a tool designed to transfer data between Hadoop and relational databases. You can use Sqoop to import data from a relational database management system (RDBMS) such as

2011-11-18 14:06:38 160

转载 Java正则表达式详解

如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文

2011-11-15 19:01:15 657

转载 HBase 架构101 –预写日志系统 (WAL)

HBase 架构101 –预写日志系统  (WAL)原文:http://www.larsgeorge.com/2010/01/hbase-architecture-101-write-ahead-log.html什么是预写日志WAL? 之前的文章我们简单介绍了HBase的存储结构。其中提到了预写日志。这里,我们要介绍它的实现细节,所有的描述都基于HBase 0.20.3.WAL最重

2011-11-09 18:11:26 1744

转载 使用Ganglia监控Hadoop

Hadoop本身提供了很多监控工具的接口,如JMX、Nagios、Ganglia等。使用Ganglia监控hadoop,配置起来非常简单,只需要修改$HADOOP_HOME/conf/hadoop-metrics.properties文件,把相关的配置段修改为下面的示例:# Configuration of the "dfs" context for ganglia # Pick one: G

2011-11-08 11:56:41 2125

转载 用 Ganglia 监控hadoop集群

随着数据中心的增长和管理人员的缩减,对计算资源使用有效监视工具的需求变得比以往更加迫切。术语监视 在应用到数据中心时可能会让人混淆,因为它的含义会根据具体的说话者和听众而有所不同。例如:在集群中运行应用程序的人员会思考:“我的作业什么时候运行?它什么时候会完成?以及与上一次相比,它是怎样执行的?”网络运营中心(NOC)的操作员会思考:“什么时候会出现表示需要解决问题的红灯并安排服务

2011-11-08 11:55:53 4546

转载 nutch 1.3 学习笔记3 - Inject

Nutch 1.3 学习笔记 - Inject----------------------------1. Inject是干嘛的?在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中,一般是用来引导系统的初始化。这里的文本格式如下:view plainhttp://www.nutch.org/ \t nutch.score

2011-11-07 22:41:53 872

转载 Nutch 1.3 学习笔记2

1. Nutch 1.3 运行命令的一些介绍   要看Nutch的命令说明,可执行如下命令bin/nutch  view plain Usage: nutch [-core] COMMAND      where COMMAND is one of:      crawl             one-step crawler for intr

2011-11-07 22:16:19 711

转载 hbase很有价值的读写性能提升

NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:)在运维hbase时,目前我们最为关注的主要是三大方面的状况:1. Cluster load;2. 读写;3. 磁盘空间。1. Cluster lo

2011-11-01 16:09:44 2410

nutch1.3在myclipse部署工程源码

nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

2011-10-31

osgi开发jar包

osgi开发jar包osgi开发jar包osgi开发jar包osgi开发jar包

2009-02-20

mysql官方中文参考.chm

mysql官方中文参考mysql官方中文参考

2009-01-07

jfreechart-1.0.9-javadocs

jfreechart-1.0.9-javadocs

2008-09-23

iReport+Flash教程(LWY)报表

iReport+Flash教程(LWY)报表

2008-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除