自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

豹先生

思而后定,持之以恒

  • 博客(22)
  • 资源 (5)
  • 收藏
  • 关注

原创 nutch1.3源码在myeclipse中部署(附带nutch1.3部署代码)

nutch1.3同1.2部署大同小异,附件中会有我上传的文件源码,直接在myeclipse中import--->exisits project into workspace工程直接部署成功了,然后需要进行简单的配置1,debug---open debug dialog2,java application--->new3,main菜单      project:nutch1.

2011-10-31 21:57:57 1071

原创 win7下myeclipse部署nutch1.3报Expecting a line not the end of stream异常解决

解决方案同上一篇文章中的nutch1.2异常解决方案相同,跟nutch本身是一点关系都没有

2011-10-31 21:45:11 153

原创 win7下myeclipse部署nutch1.2报Expecting a line not the end of stream异常解决

在win7通过myeclipse部署nutch1.2源码,报如下异常:2011-10-28 00:09:37,784 WARN  mapred.LocalJobRunner (LocalJobRunner.java:run(256)) - job_local_0001java.io.IOException: Expecting a line not the end of streama

2011-10-28 00:24:35 2124

原创 云平台调整建议

一,建立最少的列簇1,用户表将用户基本信息放入一个列簇中(如nickname,gender等),将好友,标签等有大量列的单独存放,这样用户表成为5个列簇2,信息表、用户关系等基本表都改为一个列簇调整依据:更少的列簇,更少的io分析:一个HRegion中所有HStore中MemStore的大小总和到达阀值时就会进行flush操作(解释:可大概理解为同一个表中的所有列簇会同时flu

2011-10-25 23:02:36 945

原创 win7下cygwin部署nutch1.2报Expecting a line not the end of stream异常

java.io.IOException: Expecting a line not the end of streamat org.apache.hadoop.fs.DF.parseExecResult(DF.java:109)at org.apache.hadoop.util.Shell.runCommand(Shell.java:179)at org.apache.hadoop.u

2011-10-24 22:07:47 1459 1

原创 win7下在cygwin下安装nutch1.2

将nutch解压缩(.gz后缀,可以直接用winRar解压)后将文件夹nutch-1.2(包含文件夹下所有文件)放置到c:/cygwin/home下(我放在c:/cygwin/home下);打开cygwin,在cygwin环境下进入nutch-1.2目录下(cd /cygdrive/c/cygwin/home/nutch-1.2),使用命令 bin/nutch进行测试,正常的情况下出现的结果是:

2011-10-24 22:04:38 1154

转载 多region下的hbase写入问题

最近在集群上发现hbase写入性能受到较大下降,测试环境下没有该问题产生。而生产环境和测试环境的区别之一是生产环境的region数量远远多于测试环境,单台regionserver服务了约3500个region。     通过jstack工具检查到大半写入线程BLOCKED状态在"public synchronized void reclaimMemStoreMemory() {"这一行,这是在

2011-10-24 17:29:18 993

转载 Windows下myeclipse 安装 Nutch1.2(终于找到个不报错的)

1.下载并安装cygwin,安装和环境配置不细说了。将%CYGWIN_HOME%\bin加到path中。 2.导入到Eclipse中 ①在Eclipse中添加File > New > Project > Java project。 project name随便,选择 “Create project from existing source” ,在browse中选nutch的解压

2011-10-23 22:40:37 1413

原创 hbase中compact、split相应配置参数分析

1,  hbase.hregion.majorcompaction  86400000  The time (in miliseconds) between 'major' compactions of all  HStoreFiles in a region.  Default: 1 day.  Set to 0 to disable automated major co

2011-10-21 17:53:00 5988 1

转载 hbase系统架构及数据结构

HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase

2011-10-21 17:37:14 4510 2

转载 linux安装使用jprofiler6分析服务器应用状态(序列号)

jprofiler7有用序列号L-Larry_Lau@163.com#16320-dvzxpt17ogmau#013L-Larry_Lau@163.com#83851-1vyctfjv8d6ua#255L-Larry_Lau@163.com#83192-56yozpwn6v3n#1741、当应用出现问题时可以用jprofiler进行分析cpu、内存、线程

2011-10-20 16:07:22 1654

转载 hbase中compaction流程

当 client 向 hregion 端 put() 数据时, HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值,如果大于,则执行 flushcache() 操作,将 hregion 上的 m

2011-10-19 12:28:58 2247

转载 cloudera中hbase使用Snappy算法安装及设置

Snappy is a compression/decompression library. It aims for very high speeds and reasonable compression, rather than maximum compression or c

2011-10-18 16:34:45 3583 2

转载 HBase 压缩算法设置及修改

Compression就是在用CPU换IO吞吐量/磁盘空间,如果没有什么特殊原因推荐针对Column Family设置compression,下面主要有三种算法: GZIP, LZO, Snappy,作者推荐使用Snappy,因为它有较好的Encoding/Decoding速度和

2011-10-18 16:33:33 2026

转载 hbase开启lzo压缩

hbase只支持对gzip的压缩,对lzo压缩支持不好。在io成为系统瓶颈的情况下,一般开启lzo压缩会提高系统的吞吐量。但这需要参考具体的应用场景,即是否值得进行压缩、压缩率是否足够等等。 想要hbase支持lzo压缩,参照以下步骤: 1 首先要让系统支持lzo动态

2011-10-18 15:21:23 1795

转载 HBase性能深度分析

文/刘星HBase作为BigTable的一个开源实现,随着其应用的普及,用户对它的性能数据愈发关注。本文将为您揭开HBase性能测试的一角,邀您一起参与到对云计算模块性能调优的深度思考中。对于BigTable类型的分布式数据库应用来说,用户往往会对其性能状况有

2011-10-14 18:01:24 1182

原创 hive数据分析实战及执行效率执行策略分析

1,首先在hadoop集群中启动jobtrakker2,hive以提供远程服务模式启动nohup hive –service hiveserver  & 3,用户关系表user_relation字段         uid1, uid2样例数据  1

2011-10-14 12:27:11 1844

转载 六度空间理论算法及在好友推荐中应用(加批)

【六度空间算法理论简介】有一个数学领域的猜想,名为Six Degrees of Separation,中文翻译包括以下几种: 六度分割理论或小世界理论等。 理论指出:你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。

2011-10-14 11:48:31 3440

转载 nutch1.3数据流程图

流程入口org.apache.nutch.crawl   crawl.java    Crawl::run  里面的很多类中都使用了mapreduce框架进行数据处理ulrs:存放在hdfs中的待爬取的urls种子列表Injector:使用mapreduce任务将urls

2011-10-10 14:09:54 1029

转载 nutch1.3+hadoop0.20.2+solr3.2搭建

一 简介1 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. Nutch必须能够做到:  * 每个月取几十亿网

2011-10-10 14:09:06 955

转载 hive优化总结

1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.

2011-10-09 18:05:06 814

转载 Nutch 完整安装文档

近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。好在春节假日期间,终于得空可以从容对其进行一番解读与测试了。在使用Nutch之前

2011-10-08 22:10:10 886

nutch1.3在myclipse部署工程源码

nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

2011-10-31

osgi开发jar包

osgi开发jar包osgi开发jar包osgi开发jar包osgi开发jar包

2009-02-20

mysql官方中文参考.chm

mysql官方中文参考mysql官方中文参考

2009-01-07

jfreechart-1.0.9-javadocs

jfreechart-1.0.9-javadocs

2008-09-23

iReport+Flash教程(LWY)报表

iReport+Flash教程(LWY)报表

2008-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除