自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 2014年总结

今天是2014年最后一天,年三十,做个总结,总结一下2014年做过的事。 1.数据仓库计算平台升级 a.将数据表格式改为LZO压缩模式,历史数据压缩,数据压缩比为30%,节省了大量的存储空间 b.Hive整体升级至0.11版本 c.数据仓库服务器集群升级,增加几十台服务器 d.实时计算平台做了一些研究,包括Spark/Shark,Impala,Presto,不过都还在测试环境,要上生...

2015-02-18 14:52:11 109

原创 一个实时数据服务平台的设计和实现

[b]背景[/b] 在这个项目之前,也做过一个准实时的项目,大约延时10分钟左右,但是对业务单位的数据有要求,需要提供数据变化表,采用批量方式抽取,通过仓库调度系统控制任务顺序和数据流向。存在的问题:需要业务方做配合,提供数据变化表(删除,修改,新增);数据准实时,有10分钟延时;任务有异常的时候,从错误时间补数据需要耗费大量时间且找到数据偏移不容易。所以开始寻求一种通用的实时数据服务平...

2014-11-20 17:54:49 678

原创 ElasticSearch优化的一些方法

1. 多线程程序插入,可以根据服务器情况开启多个线程index 速度可以提高n倍, n>=2 2. 如果有多台机器,可以以每台设置n个shards的方式,根据业务情况,可以考虑取消replias curl -XPUT 'http://10.1.*.*:9200/dw-search/' -d '{ "settings" : { "number_of_shards...

2014-08-08 18:07:19 423

原创 ElasticSearch导入测试

最近有点空,又看了看之前写的ES导入的测试记录,干脆整理一下,看是否能给大家一点参考和借鉴。 采用的是bulkindex方式,实际上就是把index操作作为prepareIndex,扔到bulkRquest中,等积累到一定数量的时候再统一提交,这样的目的无非就是为了效率。 [b]测试服务器[/b] 4*2 = 8核 2.13G, 4G*4=...

2014-08-08 17:57:07 223

迟来的2013总结

春节后上班第一天,总结一下2013年做的事情。 1.Hadoop平台 2013Q1 HADOOP集群做了一次升级,增加一批机器,计算能力增加100%,存储能力增加70%; 2013Q2精简了之前的冗余的分区方式,之前不知道什么原因,hdfs除了按日期分partition, 还有两级目录,导致namenode内存有些吃紧,经过精简这两级目录之后,减少了约60%目录、文件,内存占用减少了70...

2014-02-07 16:54:07 91

几个JobTracker优化的配置及解决JobTracker OOM的方法

系统上线两年多了,最近发现任务积压严重,当然与任务越来越多有关系,但也不能放任不管。 然后开始找原因,通过看日志,发现JT占用的内存挺大,虽然我内存给的20g,但也不能吃住不放啊,导致服务器LOAD值也有点偏高,所以断定是出在JT这里。 [b]1.mapred.jobtracker.completeuserjobs.maximum[/b] 默认100 The maximum numbe...

2013-12-20 15:25:10 336

原创 Running Shark Locally 及可能出现的问题

[size=medium][b]Shark本地安装[/b][/size] [b]1.下载scala[/b] wget [url]http://www.scala-lang.org/files/archive/scala-2.9.3.tgz[/url] 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.tgz [b]2.下载shark and hive压缩包...

2013-09-06 15:19:56 143

原创 Shark: Real-time queries and analytics for big data

Shark大数据实时查询分析利器 Shark SQL查询比Hive快100倍,机器学习比Hadoop快100倍 作者是Ben Lorica 2012-07-27 Ben Lorica的是O'Reilly Media公司的首席数据科学家,他致力于包括直销,消费者和市场的研究,有针对性的广告,文本挖掘,金融工程中的商业智能,数据挖掘,机器学习和统计分析。他的背景包括任职于一家投资管理公司,互联...

2013-09-02 18:44:31 96

Apache Hadoop: Shark与Impala相比(翻译)

内容来自Reynold Xin Berkeley的博士,此人领导了Shark的开发(在加州伯克利分校AMP实验室)。 本文只做翻译,不对两个系统的优劣做评价。 [b]总体上[/b] Shark扩展了Apache Hive,大大加快在内存和磁盘上的查询。而Impala是企业级数据仓库系统, 可以很好地使用Hive/ HDFS,从架构层来说,类似于传统的并行数据库。这两个系统有着很多共同的...

2013-08-22 11:28:28 297

原创 ElasticSearch Facet异常处理

当facet时数据返回数字不对,或者出现异常,不做facet不报错,百思不得其解,在独立的index下建index type,facet也不报错。 [code="java"]QueryPhaseExecutionException[[dn][2]: query[ConstantScore(NotDeleted(cache(_type:dn_character_glory)))],from[0],...

2013-04-18 15:06:49 249

原创 ElasticSearch 中文分词插件安装

[b]1. ik[/b] 现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.3 在elasticsearch/plugins目录下建analysis-ik目录 然后直接下载安装包 [url]https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsea...

2013-04-18 14:59:42 175

原创 Hadoop 启动节点Datanode失败

重新启动之前坏掉的一个节点的Datanode,发现进程没有启动成功。查看相应日志, [code="log"] ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: java.io.IOException: verifyNodeRegistration: unkn...

2012-08-29 20:55:55 294

原创 Hadoop Mapreduce任务出错,Child Error

集群出现大面积任务失败,表现为mapreduce刚启动不久,就抛出异常,查看log可以看到, Status : FAILED java.lang.Throwable: Child Error at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271) Caused by: java.io.IOException: Task...

2012-08-28 15:28:58 152

HBASE importtsv导入数据及lzo问题解决

用hadoop0.20版本做hbase的bulk load测试,发现importtsv的过程出现些问题,关于importtsv网上有很多资料,这里不待言表。 先大概表述出现的问题, 当使用两步的方式导入数据时, 第一步,生成hfile [code="script"]hadoop jar hbase-version.jar importtsv -Dimporttsv.columns=HBAS...

2012-05-10 16:15:39 504

Redis测试分析(pipeline模式推荐)

测试环境 Redis测试版本:2.2.12 使用Java Jedis客户端进行测试 测试数据量:50万, 超过2亿 速度 1) mset函数插入效率最高,插入Redis的速度达到20万条数据/秒。但是该函数所耗内存较高,对于我们实际应用一表每天2.4亿的数据量来说,需要消耗近32G内存; 2) mset函数中当m值达到200以上时,插入速度接近饱和,因此实际应用中,应设定该值 >=...

2011-12-31 18:33:35 404

Linux Dos 命令区别

[size=medium][b]linux bat 命令区别[/b][/size] [b]显示文件 [/b] linux: ls dir dos: dir [b]新建文件夹[/b] linux: mkdir dos: md [b]移动文件[/b] linux: mv dos: move [b]删除文件[/b] linux: rm dos: del [b...

2011-12-28 18:19:05 181

SAS 如何在Windows Linux 环境中做成自动化脚本

SAS大部分使用者都是在IDE环境中去运行使用它,通过editor, Log, Output窗口去运行或观测log或观察结果,最近需要能够由程序自动起调,考虑需求首先将它包装成脚本,然后由cron(任务调度)或外部程序起调。本节不讨论cron(任务调度)或外部程序如何起调,如果有需求,可以留言,我会解答。 建议在脚本中核心命令之前要对参数个数,参数内容做一些判断,比如参数是否全有,sas文件...

2011-12-28 17:31:56 429

原创 Windows 64位环境的Java 服务配置

最近有个任务,需要远程起调Windows64服务器下的程序,那么需要在Windows服务器中注入一个deamon服务,都知道Linux环境做成后台服务非常简单,nohup &很快能解决问题,但windows环境总是多重磨难。 一开始我先问了个朋友,他回答是没做成服务,是把写个Pathon包在java外面,然后编译成exe,在启动中加入,我一听觉得有些麻烦,还需要绕一圈才能起调。 先搜Java ...

2011-12-22 15:32:16 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除