- 博客(22)
- 资源 (5)
- 收藏
- 关注
原创 nutch1.3源码在myeclipse中部署(附带nutch1.3部署代码)
nutch1.3同1.2部署大同小异,附件中会有我上传的文件源码,直接在myeclipse中import--->exisits project into workspace工程直接部署成功了,然后需要进行简单的配置1,debug---open debug dialog2,java application--->new3,main菜单 project:nutch1.
2011-10-31 21:57:57 1071
原创 win7下myeclipse部署nutch1.3报Expecting a line not the end of stream异常解决
解决方案同上一篇文章中的nutch1.2异常解决方案相同,跟nutch本身是一点关系都没有
2011-10-31 21:45:11 153
原创 win7下myeclipse部署nutch1.2报Expecting a line not the end of stream异常解决
在win7通过myeclipse部署nutch1.2源码,报如下异常:2011-10-28 00:09:37,784 WARN mapred.LocalJobRunner (LocalJobRunner.java:run(256)) - job_local_0001java.io.IOException: Expecting a line not the end of streama
2011-10-28 00:24:35 2124
原创 云平台调整建议
一,建立最少的列簇1,用户表将用户基本信息放入一个列簇中(如nickname,gender等),将好友,标签等有大量列的单独存放,这样用户表成为5个列簇2,信息表、用户关系等基本表都改为一个列簇调整依据:更少的列簇,更少的io分析:一个HRegion中所有HStore中MemStore的大小总和到达阀值时就会进行flush操作(解释:可大概理解为同一个表中的所有列簇会同时flu
2011-10-25 23:02:36 945
原创 win7下cygwin部署nutch1.2报Expecting a line not the end of stream异常
java.io.IOException: Expecting a line not the end of streamat org.apache.hadoop.fs.DF.parseExecResult(DF.java:109)at org.apache.hadoop.util.Shell.runCommand(Shell.java:179)at org.apache.hadoop.u
2011-10-24 22:07:47 1459 1
原创 win7下在cygwin下安装nutch1.2
将nutch解压缩(.gz后缀,可以直接用winRar解压)后将文件夹nutch-1.2(包含文件夹下所有文件)放置到c:/cygwin/home下(我放在c:/cygwin/home下);打开cygwin,在cygwin环境下进入nutch-1.2目录下(cd /cygdrive/c/cygwin/home/nutch-1.2),使用命令 bin/nutch进行测试,正常的情况下出现的结果是:
2011-10-24 22:04:38 1154
转载 多region下的hbase写入问题
最近在集群上发现hbase写入性能受到较大下降,测试环境下没有该问题产生。而生产环境和测试环境的区别之一是生产环境的region数量远远多于测试环境,单台regionserver服务了约3500个region。 通过jstack工具检查到大半写入线程BLOCKED状态在"public synchronized void reclaimMemStoreMemory() {"这一行,这是在
2011-10-24 17:29:18 993
转载 Windows下myeclipse 安装 Nutch1.2(终于找到个不报错的)
1.下载并安装cygwin,安装和环境配置不细说了。将%CYGWIN_HOME%\bin加到path中。 2.导入到Eclipse中 ①在Eclipse中添加File > New > Project > Java project。 project name随便,选择 “Create project from existing source” ,在browse中选nutch的解压
2011-10-23 22:40:37 1413
原创 hbase中compact、split相应配置参数分析
1, hbase.hregion.majorcompaction 86400000 The time (in miliseconds) between 'major' compactions of all HStoreFiles in a region. Default: 1 day. Set to 0 to disable automated major co
2011-10-21 17:53:00 5988 1
转载 hbase系统架构及数据结构
HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase
2011-10-21 17:37:14 4510 2
转载 linux安装使用jprofiler6分析服务器应用状态(序列号)
jprofiler7有用序列号L-Larry_Lau@163.com#16320-dvzxpt17ogmau#013L-Larry_Lau@163.com#83851-1vyctfjv8d6ua#255L-Larry_Lau@163.com#83192-56yozpwn6v3n#1741、当应用出现问题时可以用jprofiler进行分析cpu、内存、线程
2011-10-20 16:07:22 1654
转载 hbase中compaction流程
当 client 向 hregion 端 put() 数据时, HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值,如果大于,则执行 flushcache() 操作,将 hregion 上的 m
2011-10-19 12:28:58 2247
转载 cloudera中hbase使用Snappy算法安装及设置
Snappy is a compression/decompression library. It aims for very high speeds and reasonable compression, rather than maximum compression or c
2011-10-18 16:34:45 3583 2
转载 HBase 压缩算法设置及修改
Compression就是在用CPU换IO吞吐量/磁盘空间,如果没有什么特殊原因推荐针对Column Family设置compression,下面主要有三种算法: GZIP, LZO, Snappy,作者推荐使用Snappy,因为它有较好的Encoding/Decoding速度和
2011-10-18 16:33:33 2026
转载 hbase开启lzo压缩
hbase只支持对gzip的压缩,对lzo压缩支持不好。在io成为系统瓶颈的情况下,一般开启lzo压缩会提高系统的吞吐量。但这需要参考具体的应用场景,即是否值得进行压缩、压缩率是否足够等等。 想要hbase支持lzo压缩,参照以下步骤: 1 首先要让系统支持lzo动态
2011-10-18 15:21:23 1795
转载 HBase性能深度分析
文/刘星HBase作为BigTable的一个开源实现,随着其应用的普及,用户对它的性能数据愈发关注。本文将为您揭开HBase性能测试的一角,邀您一起参与到对云计算模块性能调优的深度思考中。对于BigTable类型的分布式数据库应用来说,用户往往会对其性能状况有
2011-10-14 18:01:24 1182
原创 hive数据分析实战及执行效率执行策略分析
1,首先在hadoop集群中启动jobtrakker2,hive以提供远程服务模式启动nohup hive –service hiveserver & 3,用户关系表user_relation字段 uid1, uid2样例数据 1
2011-10-14 12:27:11 1844
转载 六度空间理论算法及在好友推荐中应用(加批)
【六度空间算法理论简介】有一个数学领域的猜想,名为Six Degrees of Separation,中文翻译包括以下几种: 六度分割理论或小世界理论等。 理论指出:你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。
2011-10-14 11:48:31 3440
转载 nutch1.3数据流程图
流程入口org.apache.nutch.crawl crawl.java Crawl::run 里面的很多类中都使用了mapreduce框架进行数据处理ulrs:存放在hdfs中的待爬取的urls种子列表Injector:使用mapreduce任务将urls
2011-10-10 14:09:54 1029
转载 nutch1.3+hadoop0.20.2+solr3.2搭建
一 简介1 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. Nutch必须能够做到: * 每个月取几十亿网
2011-10-10 14:09:06 955
转载 hive优化总结
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.
2011-10-09 18:05:06 814
转载 Nutch 完整安装文档
近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。好在春节假日期间,终于得空可以从容对其进行一番解读与测试了。在使用Nutch之前
2011-10-08 22:10:10 886
nutch1.3在myclipse部署工程源码
2011-10-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人