iteye_5062-CSDN博客

原创推荐技术简介

转载请标明出处：http://blackwing.iteye.com/blog/2231556根据项亮《动态推荐系统关键技术研究》的分类方式，可以根据使用数据来把推荐技术分成以下两类：[size=medium][b]1.按使用数据分类：[/b][/size]协同过滤内容过滤社会化过滤基于人口信息的过滤机遇地理信息的推荐[size=medium][...

2015-07-30 18:13:46 582

原创新版hadoop MultipleOutputs多文件输出

转载请标明出处：http://blackwing.iteye.com/blog/2191454网上虽然有不少关于MultipleOutputs实现多文件输出的文章，但发现要不还是使用mapred.lib旧接口，要不就是说明不清楚。Mapper[code="java"]package com.yy.hiido.itemcf.hadoop.mapper;import jav...

2015-03-11 14:22:24 519

原创解决直接读HFile时因表数据写入而导致文件目录变化问题

转载请标明出处：http://blackwing.iteye.com/admin/blogs/2188077数据量大的情况下，通过直接读取HFile来获得hbase表数据性能比通过HTable读取有优势，但当读取HFile时，table同时有数据写入，那么可能因为split、compact等原因导致某些HFile不存在，导致任务失败。如果通过hdfs的snapshot快照功能，对某...

2015-03-02 18:22:15 427

原创另一种reids的Could not get a resource from the pool原因

转载请标明出处：http://blackwing.iteye.com/blog/2158799由于sentinel redis集群是搭建在组内的服务器，而某个应用需要从其他组的storm集群访问sentinel，并且组内的sentinel配置了防火墙访问规则。sentinel对外开通的是26379端口，所以程序连接sentinel是，能正常建立对sentinel master的连接...

2014-11-21 11:20:54 337

原创日志收集器fluentd：配置forward从客户机到收集入库端

转载请声明出处：http://blackwing.iteye.com/blog/2152319试用了fluentd，挺方便易用，支持直接到hdfs，hbase，mangoDB等，可以跟已有业务结合。安装fluentd非常简单，官方教材地址：[url]http://docs.fluentd.org/categories/installation[/url]以下是针对ubuntu ...

2014-11-04 16:41:12 791

原创那些storm的坑坑

转载请声明出处：http://blackwing.iteye.com/blog/2147633在使用storm的过程中，感觉它还是不如hadoop那么成熟。当然，它的流式处理能力挺让人眼前一亮，以前做的个性化推荐都是离线计算，现在总算把实时部分也加上了。总结一下storm使用的些心得：1.尽量把大量数据处理行为分拆成多个处理component。2.storm不擅长保存状态，...

2014-10-24 17:01:28 299

原创解决Exception from container-launch: ExitCodeException exitCode=1的另类错误

转载请标明出处：http://blackwing.iteye.com/blog/2107107环境为hadoop2.2，在linux下运行自己的job，报如下错误：[code="java"]Exception from container-launch: ExitCodeException exitCode=1: ExitCodeException exitCode=1: ...

2014-08-21 18:18:22 4152

原创 ubuntu 12.04 LTS下安装zabbix

转载请标明出处：http://blackwing.iteye.com/blog/2001416主要参考这篇文章：[url]https://www.digitalocean.com/community/articles/how-to-install-zabbix-on-ubuntu-configure-it-to-monitor-multiple-vps-servers[/url]其...

2014-01-08 17:20:22 301

原创 ubuntu 12.04LTS下安装Storm 0.9

转载请标明出处：[url]http://blackwing.iteye.com/admin/blogs/1995026[/url]Storm已经在2013年9月放到apache，作为孵化项目，但他的apache主页居然404，真莫名。Storm的资料如下：[code="java"]1.安装集群教程https://github.com/nathanmarz/storm/w...

2013-12-24 18:41:12 192

原创 LoadIncrementalHFiles是copy而不是move的疑惑

转载请标明出处：http://blackwing.iteye.com/blog/1991901之前在另一篇文章里实现的自定义job生成HFile并使用LoadIncrementalHFiles 入库HBase ：http://blackwing.iteye.com/blog/1991380但发现入库时，非常的慢，而且几次都失败了，明明官方教材说这个操作是move的：[code...

2013-12-19 10:57:40 735

原创 Hadoop生成HFile直接入库HBase心得

转载请标明出处：http://blackwing.iteye.com/blog/1991380hbase自带了ImportTsv类，可以直接把tsv格式（官方教材显示，是\t分割各个字段的文本格式）生成HFile，并且使用另外一个类org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles直接把HFile移动到hbase对应的hdfs...

2013-12-18 16:15:08 583

原创 NullPointerException SerializationFactory.getSerializer解决

转载请标明出处：http://blackwing.iteye.com/blog/1985226网上其他的解释是，MR的in/out的key、value类型不匹配，或者job的输入输出格式不匹配导致报如下错误：[code="java"]java.lang.NullPointerException at org.apache.hadoop.io.serializer.Serializa...

2013-12-04 17:30:21 194

原创搭建ivy服务器

转载请标明出处：http://blackwing.iteye.com/blog/1981812ivy服务器的一般应用场景是，再内网某台服务器上搭建一个共享的repository，本地连接检出需要的jar包。1. ubuntu上安装samba[code="java"]sudo apt-get install samba[/code]2. 创建目录在自己需要的路径下...

2013-11-27 18:24:47 414

原创 ClassNotFoundException: org.apache.hadoop.util.PlatformName问题解决

转载请标明出处：http://blackwing.iteye.com/blog/1980219服务器上hbase用的是hadoop 2.2.0的hdfs，java程序访问hbase时报如下错误：[code="java"]java.lang.NoClassDefFoundError:org/apache/hadoop/util/PlatformNameCaused by:...

2013-11-25 14:40:48 1825

原创 Hadoop的Text类getBytes字节数据put到HBase后有多余字符串问题

转载请标明出处：http://blackwing.iteye.com/blog/1978501org.apache.hadoop.io.Text里面的getBytes方法有个小坑。先看现场：[code="java"]String s = "91223224-20131120-96413376-150"; Text t = new Text(); t.set(s)...

2013-11-21 15:53:25 257

原创通过nginx实现内网hadoop、hbase集群对外访问web界面

转载请标明出处：http://blackwing.iteye.com/blog/1949154不少公司为了安全，hadoop、hbase集群都是不对外开放，只有一台入口机对外，那么当要查看hadoop、hbase集群机器状态等信息时，就没办法了。而要实现内网机器给外网访问，要解决的问题是：1.hadoop、hbase页面上的url替换成外网能访问的url2.通过有限的端口、...

2013-09-30 18:06:49 1061 1

原创编译YCSB 解决Not a host:port pair问题

转载请标明出处：http://blackwing.iteye.com/blog/1943942这位xd的文章(http://blog.csdn.net/cxin917/article/details/9005088)讲述的办法能正确解决Not a host:port pair的问题，主要来说是hbase-binding.jar跟hbase、hadoop版本问题。但我在编译ycsb时...

2013-09-18 17:25:47 395

原创 HBase使用SNAPPY压缩遇到compression test fail问题解决

转载请标明出处：http://blackwing.iteye.com/blog/1943575之前为HBase增加SNAPPY压缩的一篇文章：http://blackwing.iteye.com/blog/1942037本以为这样hbase就能使用SNAPPY了，但发现RS的log不停报错：[code="java"]IOException: Compression algo...

2013-09-18 10:51:03 1133

原创 HBase表增加snappy压缩

转载请标明来源：http://blackwing.iteye.com/blog/1942037此前使用的是LZO，近期想着试试snappy的实力，snappy的安装可以参考另外一篇文章：http://blackwing.iteye.com/blog/1940933HBase添加snappy压缩步骤如下：1. 验证snappy是否正常安装：找某个文件，对其进行压缩测试[c...

2013-09-13 17:54:48 724

原创 hadoop 1.0.3增加snappy压缩

转载请标明来源：http://blackwing.iteye.com/blog/1940933基础环境是ubuntu 10.04 LTS，网上得知hadoop 1.0.3以后集成了snappy，所以相比安装lzo，简便一点。预备条件：1. 预先配好环境[code="java"]sudo apt-get install autoconfsudo apt-get i...

2013-09-11 17:27:49 170

原创把hadoop的metrics加入ganglia监控

hadoop的metrics加入ganglia其实是很简单的，但网络上都是copy，而且文档新旧不一，居然还折腾了一会，太out了。hadoop版本1.0.3，ganglia版本3.1.2，以下是主要步骤：1. 修改hadoop/conf/hadoop-metrics2.properties文件[code="java"]*.sink.file.class=org.apach...

2013-09-04 17:02:49 334

原创 ROOT不在线的另外一种原因及解决办法

转载请声明出处：http://blackwing.iteye.com/blog/1914898近来hbase总是不稳定，运行一两天后，就会发现-ROOT-不在线，代码连接读表，会有一下报错：[code="java"]Unable to find region xxxx,,99999999999999 after 10 tries[/code]而rs打印出来的log则有以下错误：...

2013-07-29 14:28:49 175

原创 enable和disable表时出现表未disable/enable异常处理

转载请标明出处：http://blackwing.iteye.com/blog/1914841今天在为表增加LZO压缩，在enable表时，发现耗时很长都未结束，就ctrl+c退出hbase shell，再进入继续enable表，但此时出现如下错误：[code="java"]ERROR: org.apache.hadoop.hbase.TableNotDisabledException...

2013-07-29 11:42:31 1358

原创 shuffle & sort解释

转载请标明出处：http://blackwing.iteye.com/blog/1848401MR任务，充分利用了缓存进行读写。1）map端每个map任务，都会先把数据写到一个环形缓存中，该缓存默认大小是100MB，由io.sort.mb（默认值是100MB）和io.sort.spill.percent（默认值是0.8）共同决定。在默认情况下，当缓存达到80MB时，后台线程就开...

2013-04-16 17:31:09 259

原创 ant build时“找不到符号”问题解决

升级了项目依赖的jar包后，build时总是报错，说“找不到符号”，代码测试过是正常的。网上说是存在多个版本的jar包导致。后来在build.xml中发现引用的还是项目的lib下的jar，把项目目录下lib文件夹中所有jar包删除，再build，就能正常打包了。...

2013-02-17 16:18:14 1562

原创 hadoop的 IncompatibleClassChangeError

开发环境中，使用的是官方版的hadoop 1.0.1版，而集群上的hadoop则是cloudera的hadoop 2.0版，之前兼容性还不错，直到使用了Counter。报错如下：[code="java"]FATAL org.apache.hadoop.mapred.Child: Error running child : java.lang.IncompatibleClassChang...

2013-02-06 17:26:37 125

原创 HBase的start key和end key疑惑

转载请标明来源：http://blackwing.iteye.com/blog/1791848之前把一个region人工拆分成多个region，每个region的起始key是具体某个row，但后来发现，hbase是把byte[0]作为一个表的起始key。官方文档这样描述：http://hbase.apache.org/book.html#arch.catalog[quote]Not...

2013-02-05 15:57:56 1749

原创 HBase的coprocessor分拆HRegion

[quote]转载请注明出处，文章链接：http://blackwing.iteye.com/blog/1788647[/quote]之前通过修改TableInputFormatBase类实现了客户端分拆每个HRegion，从而实现一个region可以同时被多个map同时读取，原文：[url]http://blackwing.iteye.com/admin/blogs/176396...

2013-02-04 15:15:04 183

原创分拆TableSplit 让多个mapper同时读取

默认情况下，一个region是一个tableSplit，对应一个mapper进行读取，但单mapper读取速度较慢，因此想着把默认一个table split分拆成多个split，这样hadoop就能通过多个mapper读取。由于HBase不能像hadoop一样通过以下参数调整split大小，而实现多个mapper读取[code="java"]mapred.min.split.size...

2013-01-06 18:13:20 301

原创 GET查询HBase无结果时 Result的size也不为空

用Get查询hbase某个row时，就算该row不存在，但还是返回Result，只是该Result是empty的。[code="java"]List batch= new ArrayList(); Get get1=new Get("1111111111".getBytes()); Get get2=new Get("2222222222".getBytes()); ...

2012-11-28 11:15:12 1524

原创 solr升级到3.6后的一点问题

solr升级到3.6后，以前的CommonsHttpSolrServer类以及过期，官方建议使用HttpSolrServer，但替换类后，运行会报错：[code="java"]java.lang.NoClassDefFoundError: org/apache/http/HttpRequestInterceptor[/code]找到这位仁兄的文章：[code="java"]...

2012-10-24 18:35:00 124

原创 solr的replication设置

配置solr的主从replication，slave机器一定要设置masterUrl这个参数，但项目是做好索引后，发送命令给从机到master上拉索引，而不是slave定时检查master索引。索引有个取巧的方法，就是虽然设置了masterUrl参数，但不指定其值[code="java"] [/code]这样solr的slave启动时不会报错，而且能正...

2012-10-18 11:39:40 449

原创 hadoop的java.opts设置有误导致job setup失败

由于各台机器配置不同，想单独设置每个节点的mapred.child.java.opts参数，开始设置为[code="java"]mapred.child.java.opts-Xms512m -Xmx512m -XX:+UseConcMarkSweepGC -XX:+UseCMSCompactAtFullCollection -XX:+CMSClassUnloadingEnabled -XX...

2012-10-17 11:14:10 177

原创 MySQL的Communications link failure

最近要从数据库读取信息，但连接其他库都没问题，只有其中一个库老报错：[code="java"]Communications link failureThe last packet sent successfully to the server was 0 milliseconds ago. the driver has not received any packets from the s...

2012-08-14 17:16:51 391

原创 Hadoop使用lzo压缩输出

Hadoop处理大量的数据，如果期间的输出数据、中间数据能压缩存储，对系统的I/O性能会有提升。参考了网上不少资料，发现综合考虑压缩、解压速度、是否支持split，目前lzo是最好的选择。lzo最初在google code上托管，但后来转移到github了，所以以github为准。地址为：[code="java"]https://github.com/kevinweil/hadoop-...

2012-08-02 17:48:11 428

原创 Hadoop的data.dir配置导致balancer无法平衡各节点

hdfs的data.dir配置如下：[code="java"] dfs.data.dir /diska/data/hadoop/data1,/diska/data/hadoop/data2 [/code]后来在web界面的live nodes中看到，怎么hadoop配置的可用空间比实际的空间要多一倍，所以推测，hadoop不会检测是否相同的盘，只单独计算data.d...

2012-07-26 17:25:25 269

原创 Linux下too many open files问题

在solr相关程序运行一段时间后，很容易出现too many open files错误，以前因为找不到有效的解决办法（solr本身已经优化），所以只能用ulimit -SHn 20000来增大进程open files的数目。今天意外的找到一个办法，似乎能比较好解决问题。这个一方面可以优化solr，另一方面，我自己调用httpclient的代码没有设置好。主要是通过设置PostMet...

2012-07-16 17:08:10 169

原创 Centos下yum安装wine

linux下安装wine可以从源码编译安装，但一般都觉得麻烦，所以尽量利用yum进行安装，解决很多包的依赖关系。首先安装一个epel[code="java"]rpm -ivh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-7.noarch.rpm[/code]有可能这个地址往后会失效，我搜索教程时也遇到...

2012-06-11 11:06:40 970

原创桌面版Centos 一个窗口打开文件夹

默认情况下，centos是没打开一个文件夹，都新开窗口，挺烦的，可以设置为在同一窗口打开所有文件夹，像windows一样，先打开一个文件夹：[code="java"]编辑-->首选项-->行为-->总是在浏览器中打开[/code]这样就行。还有，在终端命令行状态，打开某个文件夹的图像界面，可以用命令nautilus，例如打开自己的宿主目录：[code="java"]naut...

2012-06-06 16:44:18 753

原创导出导入HBase数据库

系统上已经安装来Hadoop，并且hbase通过hadoop存储数据。1.把hbase中某个表第数据导出到hadoop中：[code="java"]>hbase org.apache.hadoop.hbase.mapreduce.Driver export table1 table1[/code]hbase中首先要有table1这个表才能导出成功。导出的表，在hadoop文件系统的...

2012-06-01 16:44:20 276

空空如也

空空如也