- 博客(18)
- 收藏
- 关注
原创 2014年总结
今天是2014年最后一天,年三十,做个总结,总结一下2014年做过的事。1.数据仓库计算平台升级a.将数据表格式改为LZO压缩模式,历史数据压缩,数据压缩比为30%,节省了大量的存储空间b.Hive整体升级至0.11版本c.数据仓库服务器集群升级,增加几十台服务器d.实时计算平台做了一些研究,包括Spark/Shark,Impala,Presto,不过都还在测试环境,要上生...
2015-02-18 14:52:11 132
原创 一个实时数据服务平台的设计和实现
[b]背景[/b] 在这个项目之前,也做过一个准实时的项目,大约延时10分钟左右,但是对业务单位的数据有要求,需要提供数据变化表,采用批量方式抽取,通过仓库调度系统控制任务顺序和数据流向。存在的问题:需要业务方做配合,提供数据变化表(删除,修改,新增);数据准实时,有10分钟延时;任务有异常的时候,从错误时间补数据需要耗费大量时间且找到数据偏移不容易。所以开始寻求一种通用的实时数据服务平...
2014-11-20 17:54:49 724
原创 ElasticSearch优化的一些方法
1. 多线程程序插入,可以根据服务器情况开启多个线程index速度可以提高n倍, n>=22. 如果有多台机器,可以以每台设置n个shards的方式,根据业务情况,可以考虑取消repliascurl -XPUT 'http://10.1.*.*:9200/dw-search/' -d '{ "settings" : { "number_of_shards...
2014-08-08 18:07:19 458
原创 ElasticSearch导入测试
最近有点空,又看了看之前写的ES导入的测试记录,干脆整理一下,看是否能给大家一点参考和借鉴。 采用的是bulkindex方式,实际上就是把index操作作为prepareIndex,扔到bulkRquest中,等积累到一定数量的时候再统一提交,这样的目的无非就是为了效率。 [b]测试服务器[/b] 4*2 = 8核 2.13G, 4G*4=...
2014-08-08 17:57:07 233
迟来的2013总结
春节后上班第一天,总结一下2013年做的事情。1.Hadoop平台2013Q1 HADOOP集群做了一次升级,增加一批机器,计算能力增加100%,存储能力增加70%;2013Q2精简了之前的冗余的分区方式,之前不知道什么原因,hdfs除了按日期分partition, 还有两级目录,导致namenode内存有些吃紧,经过精简这两级目录之后,减少了约60%目录、文件,内存占用减少了70...
2014-02-07 16:54:07 123
几个JobTracker优化的配置及解决JobTracker OOM的方法
系统上线两年多了,最近发现任务积压严重,当然与任务越来越多有关系,但也不能放任不管。然后开始找原因,通过看日志,发现JT占用的内存挺大,虽然我内存给的20g,但也不能吃住不放啊,导致服务器LOAD值也有点偏高,所以断定是出在JT这里。[b]1.mapred.jobtracker.completeuserjobs.maximum[/b]默认100The maximum numbe...
2013-12-20 15:25:10 375
原创 Running Shark Locally 及可能出现的问题
[size=medium][b]Shark本地安装[/b][/size][b]1.下载scala[/b]wget [url]http://www.scala-lang.org/files/archive/scala-2.9.3.tgz[/url]最新有2.10.2.tgz文件tar xvfz scala-2.9.3.tgz[b]2.下载shark and hive压缩包...
2013-09-06 15:19:56 161
原创 Shark: Real-time queries and analytics for big data
Shark大数据实时查询分析利器Shark SQL查询比Hive快100倍,机器学习比Hadoop快100倍作者是Ben Lorica 2012-07-27Ben Lorica的是O'Reilly Media公司的首席数据科学家,他致力于包括直销,消费者和市场的研究,有针对性的广告,文本挖掘,金融工程中的商业智能,数据挖掘,机器学习和统计分析。他的背景包括任职于一家投资管理公司,互联...
2013-09-02 18:44:31 126
Apache Hadoop: Shark与Impala相比(翻译)
内容来自Reynold XinBerkeley的博士,此人领导了Shark的开发(在加州伯克利分校AMP实验室)。本文只做翻译,不对两个系统的优劣做评价。[b]总体上[/b]Shark扩展了Apache Hive,大大加快在内存和磁盘上的查询。而Impala是企业级数据仓库系统, 可以很好地使用Hive/ HDFS,从架构层来说,类似于传统的并行数据库。这两个系统有着很多共同的...
2013-08-22 11:28:28 337
原创 ElasticSearch Facet异常处理
当facet时数据返回数字不对,或者出现异常,不做facet不报错,百思不得其解,在独立的index下建index type,facet也不报错。[code="java"]QueryPhaseExecutionException[[dn][2]: query[ConstantScore(NotDeleted(cache(_type:dn_character_glory)))],from[0],...
2013-04-18 15:06:49 269
原创 ElasticSearch 中文分词插件安装
[b]1. ik[/b]现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.3在elasticsearch/plugins目录下建analysis-ik目录然后直接下载安装包[url]https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsea...
2013-04-18 14:59:42 207
原创 Hadoop 启动节点Datanode失败
重新启动之前坏掉的一个节点的Datanode,发现进程没有启动成功。查看相应日志,[code="log"]ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: java.io.IOException: verifyNodeRegistration: unkn...
2012-08-29 20:55:55 313
原创 Hadoop Mapreduce任务出错,Child Error
集群出现大面积任务失败,表现为mapreduce刚启动不久,就抛出异常,查看log可以看到,Status : FAILEDjava.lang.Throwable: Child Errorat org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)Caused by: java.io.IOException: Task...
2012-08-28 15:28:58 186
HBASE importtsv导入数据及lzo问题解决
用hadoop0.20版本做hbase的bulk load测试,发现importtsv的过程出现些问题,关于importtsv网上有很多资料,这里不待言表。先大概表述出现的问题,当使用两步的方式导入数据时,第一步,生成hfile[code="script"]hadoop jar hbase-version.jar importtsv -Dimporttsv.columns=HBAS...
2012-05-10 16:15:39 555
Redis测试分析(pipeline模式推荐)
测试环境Redis测试版本:2.2.12使用Java Jedis客户端进行测试测试数据量:50万, 超过2亿速度1) mset函数插入效率最高,插入Redis的速度达到20万条数据/秒。但是该函数所耗内存较高,对于我们实际应用一表每天2.4亿的数据量来说,需要消耗近32G内存;2) mset函数中当m值达到200以上时,插入速度接近饱和,因此实际应用中,应设定该值 >=...
2011-12-31 18:33:35 436
Linux Dos 命令区别
[size=medium][b]linux bat 命令区别[/b][/size][b]显示文件 [/b]linux: ls dirdos: dir[b]新建文件夹[/b]linux: mkdirdos: md[b]移动文件[/b]linux: mvdos: move[b]删除文件[/b]linux: rmdos: del[b...
2011-12-28 18:19:05 214
SAS 如何在Windows Linux 环境中做成自动化脚本
SAS大部分使用者都是在IDE环境中去运行使用它,通过editor, Log, Output窗口去运行或观测log或观察结果,最近需要能够由程序自动起调,考虑需求首先将它包装成脚本,然后由cron(任务调度)或外部程序起调。本节不讨论cron(任务调度)或外部程序如何起调,如果有需求,可以留言,我会解答。建议在脚本中核心命令之前要对参数个数,参数内容做一些判断,比如参数是否全有,sas文件...
2011-12-28 17:31:56 451
原创 Windows 64位环境的Java 服务配置
最近有个任务,需要远程起调Windows64服务器下的程序,那么需要在Windows服务器中注入一个deamon服务,都知道Linux环境做成后台服务非常简单,nohup &很快能解决问题,但windows环境总是多重磨难。一开始我先问了个朋友,他回答是没做成服务,是把写个Pathon包在java外面,然后编译成exe,在启动中加入,我一听觉得有些麻烦,还需要绕一圈才能起调。先搜Java ...
2011-12-22 15:32:16 195
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人