2011年10月_豹先生_MR-BAO

12月 11月 10月 09月 08月 07月

原创 nutch1.3源码在myeclipse中部署（附带nutch1.3部署代码）

nutch1.3同1.2部署大同小异，附件中会有我上传的文件源码，直接在myeclipse中import--->exisits project into workspace工程直接部署成功了，然后需要进行简单的配置1，debug---open debug dialog2，java application--->new3，main菜单 project：nutch1.

2011-10-31 21:57:57 1071

原创 win7下myeclipse部署nutch1.3报Expecting a line not the end of stream异常解决

解决方案同上一篇文章中的nutch1.2异常解决方案相同，跟nutch本身是一点关系都没有

2011-10-31 21:45:11 153

原创 win7下myeclipse部署nutch1.2报Expecting a line not the end of stream异常解决

在win7通过myeclipse部署nutch1.2源码，报如下异常：2011-10-28 00:09:37,784 WARN mapred.LocalJobRunner (LocalJobRunner.java:run(256)) - job_local_0001java.io.IOException: Expecting a line not the end of streama

2011-10-28 00:24:35 2124

原创云平台调整建议

一，建立最少的列簇1，用户表将用户基本信息放入一个列簇中（如nickname,gender等），将好友，标签等有大量列的单独存放，这样用户表成为5个列簇2，信息表、用户关系等基本表都改为一个列簇调整依据：更少的列簇，更少的io分析：一个HRegion中所有HStore中MemStore的大小总和到达阀值时就会进行flush操作(解释：可大概理解为同一个表中的所有列簇会同时flu

2011-10-25 23:02:36 945

原创 win7下cygwin部署nutch1.2报Expecting a line not the end of stream异常

java.io.IOException: Expecting a line not the end of streamat org.apache.hadoop.fs.DF.parseExecResult(DF.java:109)at org.apache.hadoop.util.Shell.runCommand(Shell.java:179)at org.apache.hadoop.u

2011-10-24 22:07:47 1459 1

原创 win7下在cygwin下安装nutch1.2

将nutch解压缩（.gz后缀，可以直接用winRar解压）后将文件夹nutch-1.2(包含文件夹下所有文件)放置到c:/cygwin/home下(我放在c:/cygwin/home下)；打开cygwin，在cygwin环境下进入nutch-1.2目录下（cd /cygdrive/c/cygwin/home/nutch-1.2），使用命令 bin/nutch进行测试，正常的情况下出现的结果是：

2011-10-24 22:04:38 1154

转载多region下的hbase写入问题

最近在集群上发现hbase写入性能受到较大下降，测试环境下没有该问题产生。而生产环境和测试环境的区别之一是生产环境的region数量远远多于测试环境，单台regionserver服务了约3500个region。通过jstack工具检查到大半写入线程BLOCKED状态在"public synchronized void reclaimMemStoreMemory() {"这一行，这是在

2011-10-24 17:29:18 993

转载 Windows下myeclipse 安装 Nutch1.2(终于找到个不报错的)

1.下载并安装cygwin，安装和环境配置不细说了。将%CYGWIN_HOME%\bin加到path中。 2.导入到Eclipse中 ①在Eclipse中添加File > New > Project > Java project。 project name随便，选择 “Create project from existing source” ，在browse中选nutch的解压

2011-10-23 22:40:37 1413

原创 hbase中compact、split相应配置参数分析

1, hbase.hregion.majorcompaction 86400000 The time (in miliseconds) between 'major' compactions of all HStoreFiles in a region. Default: 1 day. Set to 0 to disable automated major co

2011-10-21 17:53:00 5988 1

转载 hbase系统架构及数据结构

HBase中的表一般有这样的特点：1 大：一个表可以有上亿行，上百万列2 面向列:面向列(族)的存储和权限控制，列(族)独立检索。3 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase

2011-10-21 17:37:14 4510 2

转载 linux安装使用jprofiler6分析服务器应用状态（序列号）

jprofiler7有用序列号L-Larry_Lau@163.com#16320-dvzxpt17ogmau#013L-Larry_Lau@163.com#83851-1vyctfjv8d6ua#255L-Larry_Lau@163.com#83192-56yozpwn6v3n#1741、当应用出现问题时可以用jprofiler进行分析cpu、内存、线程

2011-10-20 16:07:22 1654

转载 hbase中compaction流程

当 client 向 hregion 端 put() 数据时， HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值，如果大于，则执行 flushcache() 操作，将 hregion 上的 m

2011-10-19 12:28:58 2247

转载 cloudera中hbase使用Snappy算法安装及设置

Snappy is a compression/decompression library. It aims for very high speeds and reasonable compression, rather than maximum compression or c

2011-10-18 16:34:45 3583 2

转载 HBase 压缩算法设置及修改

Compression就是在用CPU换IO吞吐量/磁盘空间，如果没有什么特殊原因推荐针对Column Family设置compression，下面主要有三种算法: GZIP, LZO, Snappy，作者推荐使用Snappy，因为它有较好的Encoding/Decoding速度和

2011-10-18 16:33:33 2026

转载 hbase开启lzo压缩

hbase只支持对gzip的压缩,对lzo压缩支持不好。在io成为系统瓶颈的情况下，一般开启lzo压缩会提高系统的吞吐量。但这需要参考具体的应用场景，即是否值得进行压缩、压缩率是否足够等等。想要hbase支持lzo压缩，参照以下步骤： 1 首先要让系统支持lzo动态

2011-10-18 15:21:23 1795

转载 HBase性能深度分析

文/刘星HBase作为BigTable的一个开源实现，随着其应用的普及，用户对它的性能数据愈发关注。本文将为您揭开HBase性能测试的一角，邀您一起参与到对云计算模块性能调优的深度思考中。对于BigTable类型的分布式数据库应用来说，用户往往会对其性能状况有

2011-10-14 18:01:24 1182

原创 hive数据分析实战及执行效率执行策略分析

1,首先在hadoop集群中启动jobtrakker2,hive以提供远程服务模式启动nohup hive –service hiveserver & 3,用户关系表user_relation字段 uid1, uid2样例数据 1

2011-10-14 12:27:11 1844

转载六度空间理论算法及在好友推荐中应用（加批）

【六度空间算法理论简介】有一个数学领域的猜想，名为Six Degrees of Separation，中文翻译包括以下几种：六度分割理论或小世界理论等。理论指出：你和任何一个陌生人之间所间隔的人不会超过六个，也就是说，最多通过六个人你就能够认识任何一个陌生人。

2011-10-14 11:48:31 3440

转载 nutch1.3数据流程图

流程入口org.apache.nutch.crawl crawl.java Crawl::run 里面的很多类中都使用了mapreduce框架进行数据处理ulrs:存放在hdfs中的待爬取的urls种子列表Injector:使用mapreduce任务将urls

2011-10-10 14:09:54 1029

转载 nutch1.3+hadoop0.20.2+solr3.2搭建

一简介1 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. Nutch必须能够做到:　　* 每个月取几十亿网

2011-10-10 14:09:06 955

转载 hive优化总结

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下： mapred.child.java.opts -Xmx 1024m2.hive默认建表时的路径也可以在hive-site.xml里配置，如下: hive.

2011-10-09 18:05:06 814

转载 Nutch 完整安装文档

近来Nutch一词在网络中时有所见，但囿于平常工作繁忙而未能潜心细读与研究，只知道Nutch是Apache组织的一个开源项目，利用它用户可以建立自己内部网的搜索引擎，也可以建立针对整个网络的搜索引擎。好在春节假日期间，终于得空可以从容对其进行一番解读与测试了。在使用Nutch之前

2011-10-08 22:10:10 886

nutch1.3在myclipse部署工程源码

nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

2011-10-31

osgi开发jar包

osgi开发jar包osgi开发jar包osgi开发jar包osgi开发jar包

2009-02-20

mysql官方中文参考.chm

mysql官方中文参考mysql官方中文参考

2009-01-07

jfreechart-1.0.9-javadocs

2008-09-23

iReport+Flash教程(LWY)报表

2008-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人