iteye_10418
码龄7年
求更新 关注
提问 私信
  • 博客:6,039
    6,039
    总访问量
  • 11
    原创
  • 1
    粉丝
  • 0
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2018-07-11
博客简介:

愚夫

查看详细资料
个人成就
  • 获得0次点赞
  • 内容获得0次评论
  • 获得5次收藏
  • 博客总排名828,826名
创作历程
  • 1篇
    2015年
  • 4篇
    2014年
  • 6篇
    2013年
  • 3篇
    2012年
  • 4篇
    2011年
TA的专栏
  • Windows
    3篇
  • Shell
    2篇
  • SAS
    1篇
  • Linux
    1篇
  • NoSQL
    3篇
  • Redis
    1篇
  • HBASE
    2篇
  • Hadoop
    3篇
  • ElasticSearch
    5篇
  • Shark
    3篇
  • 其它
    2篇
  • FLUME
    1篇
  • KAFKA
    1篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

创作活动更多

新星杯·14天创作挑战营·第13期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛!注: 1、参赛者可以进入活动群进行交流、互相鼓励与支持(开卷),虚竹哥会分享创作心得和涨粉心得,答疑及活动群请见:https://bbs.csdn.net/topics/619781944 【进活动群,得奖概率会更大,因为有辅导】 2、文章质量分查询:https://www.csdn.net/qc

87人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

2014年总结

今天是2014年最后一天,年三十,做个总结,总结一下2014年做过的事。1.数据仓库计算平台升级a.将数据表格式改为LZO压缩模式,历史数据压缩,数据压缩比为30%,节省了大量的存储空间b.Hive整体升级至0.11版本c.数据仓库服务器集群升级,增加几十台服务器d.实时计算平台做了一些研究,包括Spark/Shark,Impala,Presto,不过都还在测试环境,要上生...
原创
博文更新于 2015.02.18 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一个实时数据服务平台的设计和实现

[b]背景[/b] 在这个项目之前,也做过一个准实时的项目,大约延时10分钟左右,但是对业务单位的数据有要求,需要提供数据变化表,采用批量方式抽取,通过仓库调度系统控制任务顺序和数据流向。存在的问题:需要业务方做配合,提供数据变化表(删除,修改,新增);数据准实时,有10分钟延时;任务有异常的时候,从错误时间补数据需要耗费大量时间且找到数据偏移不容易。所以开始寻求一种通用的实时数据服务平...
原创
博文更新于 2014.11.20 ·
761 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

ElasticSearch优化的一些方法

1. 多线程程序插入,可以根据服务器情况开启多个线程index速度可以提高n倍, n>=22. 如果有多台机器,可以以每台设置n个shards的方式,根据业务情况,可以考虑取消repliascurl -XPUT 'http://10.1.*.*:9200/dw-search/' -d '{ "settings" : { "number_of_shards...
原创
博文更新于 2014.08.08 ·
483 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ElasticSearch导入测试

最近有点空,又看了看之前写的ES导入的测试记录,干脆整理一下,看是否能给大家一点参考和借鉴。 采用的是bulkindex方式,实际上就是把index操作作为prepareIndex,扔到bulkRquest中,等积累到一定数量的时候再统一提交,这样的目的无非就是为了效率。 [b]测试服务器[/b] 4*2 = 8核 2.13G, 4G*4=...
原创
博文更新于 2014.08.08 ·
261 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

迟来的2013总结

春节后上班第一天,总结一下2013年做的事情。1.Hadoop平台2013Q1 HADOOP集群做了一次升级,增加一批机器,计算能力增加100%,存储能力增加70%;2013Q2精简了之前的冗余的分区方式,之前不知道什么原因,hdfs除了按日期分partition, 还有两级目录,导致namenode内存有些吃紧,经过精简这两级目录之后,减少了约60%目录、文件,内存占用减少了70...
原创
博文更新于 2014.02.07 ·
145 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

几个JobTracker优化的配置及解决JobTracker OOM的方法

系统上线两年多了,最近发现任务积压严重,当然与任务越来越多有关系,但也不能放任不管。然后开始找原因,通过看日志,发现JT占用的内存挺大,虽然我内存给的20g,但也不能吃住不放啊,导致服务器LOAD值也有点偏高,所以断定是出在JT这里。[b]1.mapred.jobtracker.completeuserjobs.maximum[/b]默认100The maximum numbe...
原创
博文更新于 2013.12.20 ·
401 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Running Shark Locally 及可能出现的问题

[size=medium][b]Shark本地安装[/b][/size][b]1.下载scala[/b]wget [url]http://www.scala-lang.org/files/archive/scala-2.9.3.tgz[/url]最新有2.10.2.tgz文件tar xvfz scala-2.9.3.tgz[b]2.下载shark and hive压缩包...
原创
博文更新于 2013.09.06 ·
180 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Shark: Real-time queries and analytics for big data

Shark大数据实时查询分析利器Shark SQL查询比Hive快100倍,机器学习比Hadoop快100倍作者是Ben Lorica 2012-07-27Ben Lorica的是O'Reilly Media公司的首席数据科学家,他致力于包括直销,消费者和市场的研究,有针对性的广告,文本挖掘,金融工程中的商业智能,数据挖掘,机器学习和统计分析。他的背景包括任职于一家投资管理公司,互联...
原创
博文更新于 2013.09.05 ·
156 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Hadoop: Shark与Impala相比(翻译)

内容来自Reynold XinBerkeley的博士,此人领导了Shark的开发(在加州伯克利分校AMP实验室)。本文只做翻译,不对两个系统的优劣做评价。[b]总体上[/b]Shark扩展了Apache Hive,大大加快在内存和磁盘上的查询。而Impala是企业级数据仓库系统, 可以很好地使用Hive/ HDFS,从架构层来说,类似于传统的并行数据库。这两个系统有着很多共同的...
原创
博文更新于 2013.08.22 ·
371 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ElasticSearch Facet异常处理

当facet时数据返回数字不对,或者出现异常,不做facet不报错,百思不得其解,在独立的index下建index type,facet也不报错。[code="java"]QueryPhaseExecutionException[[dn][2]: query[ConstantScore(NotDeleted(cache(_type:dn_character_glory)))],from[0],...
原创
博文更新于 2013.04.18 ·
295 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ElasticSearch 中文分词插件安装

[b]1. ik[/b]现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.3在elasticsearch/plugins目录下建analysis-ik目录然后直接下载安装包[url]https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsea...
原创
博文更新于 2013.04.18 ·
236 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop 启动节点Datanode失败

重新启动之前坏掉的一个节点的Datanode,发现进程没有启动成功。查看相应日志,[code="log"]ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: java.io.IOException: verifyNodeRegistration: unkn...
原创
博文更新于 2012.08.29 ·
341 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop Mapreduce任务出错,Child Error

集群出现大面积任务失败,表现为mapreduce刚启动不久,就抛出异常,查看log可以看到,Status : FAILEDjava.lang.Throwable: Child Errorat org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)Caused by: java.io.IOException: Task...
原创
博文更新于 2012.08.28 ·
213 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBASE importtsv导入数据及lzo问题解决

用hadoop0.20版本做hbase的bulk load测试,发现importtsv的过程出现些问题,关于importtsv网上有很多资料,这里不待言表。先大概表述出现的问题,当使用两步的方式导入数据时,第一步,生成hfile[code="script"]hadoop jar hbase-version.jar importtsv -Dimporttsv.columns=HBAS...
原创
博文更新于 2012.07.10 ·
602 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux Dos 命令区别

[size=medium][b]linux bat 命令区别[/b][/size][b]显示文件 [/b]linux: ls dirdos: dir[b]新建文件夹[/b]linux: mkdirdos: md[b]移动文件[/b]linux: mvdos: move[b]删除文件[/b]linux: rmdos: del[b...
原创
博文更新于 2012.06.08 ·
251 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Redis测试分析(pipeline模式推荐)

测试环境Redis测试版本:2.2.12使用Java Jedis客户端进行测试测试数据量:50万, 超过2亿速度1) mset函数插入效率最高,插入Redis的速度达到20万条数据/秒。但是该函数所耗内存较高,对于我们实际应用一表每天2.4亿的数据量来说,需要消耗近32G内存;2) mset函数中当m值达到200以上时,插入速度接近饱和,因此实际应用中,应设定该值 >=...
原创
博文更新于 2012.01.16 ·
468 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Windows 64位环境的Java 服务配置

最近有个任务,需要远程起调Windows64服务器下的程序,那么需要在Windows服务器中注入一个deamon服务,都知道Linux环境做成后台服务非常简单,nohup &很快能解决问题,但windows环境总是多重磨难。一开始我先问了个朋友,他回答是没做成服务,是把写个Pathon包在java外面,然后编译成exe,在启动中加入,我一听觉得有些麻烦,还需要绕一圈才能起调。先搜Java ...
原创
博文更新于 2011.12.30 ·
219 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SAS 如何在Windows Linux 环境中做成自动化脚本

SAS大部分使用者都是在IDE环境中去运行使用它,通过editor, Log, Output窗口去运行或观测log或观察结果,最近需要能够由程序自动起调,考虑需求首先将它包装成脚本,然后由cron(任务调度)或外部程序起调。本节不讨论cron(任务调度)或外部程序如何起调,如果有需求,可以留言,我会解答。建议在脚本中核心命令之前要对参数个数,参数内容做一些判断,比如参数是否全有,sas文件...
原创
博文更新于 2011.12.28 ·
498 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多