- 博客(13)
- 资源 (5)
- 收藏
- 关注
转载 nutch 插件 实例2
view plainpackage com.sg123.nutch.plugin.parse.html; import java.util.Enumeration; import java.util.Properties; import org.apache.hadoop.conf.Configuration; import org.ap
2011-11-30 18:18:18 896
转载 Nutch插件开发
首先说明的是这个文章只是我实现一个Nutch插件的过程,至于Nutch插件机制的介绍就不在此说明,网上有很多关于Nutch插件机制的文章,可以自己查找。实现Nutch插件,可以参考Nutch中自带的插件的配置方法,我这里实现的插件是index-field,是主要功能是在索引中加入几个字段,以满足我们业务的需求。下面介绍实现过程:1. 插件src的目录结构插件的源码文件一般放在src/p
2011-11-30 18:10:19 1316
转载 淘宝海量数据技术架构解析(做为hadoop集群技术架构参考)
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研
2011-11-25 17:48:48 2319
翻译 Sqoop User Guide (v1.3.0-cdh3u2)(sqoop用户手册)2
6. Sqoop ToolsSqoop ships with a help tool. To display a list of all available tools, type the following command:sqoop提供了帮助工作,可以使用下面命令查看$ sqoop helpusage: sqoop COMMAND [ARGS]Available comm
2011-11-18 14:38:07 110
翻译 Sqoop User Guide (v1.3.0-cdh3u2)(sqoop用户手册)1
1. IntroductionSqoop is a tool designed to transfer data between Hadoop and relational databases. You can use Sqoop to import data from a relational database management system (RDBMS) such a
2011-11-18 14:36:53 2190
翻译 Sqoop User Guide (v1.3.0-cdh3u2)(sqoop用户手册)1
1. IntroductionSqoop is a tool designed to transfer data between Hadoop and relational databases. You can use Sqoop to import data from a relational database management system (RDBMS) such as
2011-11-18 14:06:38 160
转载 Java正则表达式详解
如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文
2011-11-15 19:01:15 657
转载 HBase 架构101 –预写日志系统 (WAL)
HBase 架构101 –预写日志系统 (WAL)原文:http://www.larsgeorge.com/2010/01/hbase-architecture-101-write-ahead-log.html什么是预写日志WAL? 之前的文章我们简单介绍了HBase的存储结构。其中提到了预写日志。这里,我们要介绍它的实现细节,所有的描述都基于HBase 0.20.3.WAL最重
2011-11-09 18:11:26 1744
转载 使用Ganglia监控Hadoop
Hadoop本身提供了很多监控工具的接口,如JMX、Nagios、Ganglia等。使用Ganglia监控hadoop,配置起来非常简单,只需要修改$HADOOP_HOME/conf/hadoop-metrics.properties文件,把相关的配置段修改为下面的示例:# Configuration of the "dfs" context for ganglia # Pick one: G
2011-11-08 11:56:41 2125
转载 用 Ganglia 监控hadoop集群
随着数据中心的增长和管理人员的缩减,对计算资源使用有效监视工具的需求变得比以往更加迫切。术语监视 在应用到数据中心时可能会让人混淆,因为它的含义会根据具体的说话者和听众而有所不同。例如:在集群中运行应用程序的人员会思考:“我的作业什么时候运行?它什么时候会完成?以及与上一次相比,它是怎样执行的?”网络运营中心(NOC)的操作员会思考:“什么时候会出现表示需要解决问题的红灯并安排服务
2011-11-08 11:55:53 4546
转载 nutch 1.3 学习笔记3 - Inject
Nutch 1.3 学习笔记 - Inject----------------------------1. Inject是干嘛的?在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中,一般是用来引导系统的初始化。这里的文本格式如下:view plainhttp://www.nutch.org/ \t nutch.score
2011-11-07 22:41:53 872
转载 Nutch 1.3 学习笔记2
1. Nutch 1.3 运行命令的一些介绍 要看Nutch的命令说明,可执行如下命令bin/nutch view plain Usage: nutch [-core] COMMAND where COMMAND is one of: crawl one-step crawler for intr
2011-11-07 22:16:19 711
转载 hbase很有价值的读写性能提升
NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:)在运维hbase时,目前我们最为关注的主要是三大方面的状况:1. Cluster load;2. 读写;3. 磁盘空间。1. Cluster lo
2011-11-01 16:09:44 2410
nutch1.3在myclipse部署工程源码
2011-10-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人