- 博客(54)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 Yarn中使用FairScheduler进行任务调度
Yarn提供可插拔的调度的算法,用于解决application之间资源竞争问题. 根据当前多租户多应用类型的应用场景,我们使用FairSchedule资源调度算法,来管理我们用户提交的队列、队列资源竞争.
2016-08-23 19:06:00 5007
原创 部署zeppelin时遇到的spark on yarn的submit方式问题
部署zeppelin时候遇到的一个跟spark submit application模式相关的问题
2016-07-18 22:47:43 4832 1
原创 SparkSQL和Hive在做cast boolean存在的不同
SparkSQL与Hive在实现cast boolean存在不同,容易踩到的坑
2016-06-21 16:29:02 4113 1
原创 MacOS安装psycopg2
MacOS安装psycopg2标签(空格分隔): DevOps Blog前言: 相比安装一般的python lib会比较麻烦一点。直接运行pip install psycopg2 Command python setup.py egg_info failed with error code 1原因在于本地需要安装PostgreSQL的app文件,所以先安装下 brew install po
2016-03-03 14:23:20 3560
原创 数据平台架构基于AWS的使用总结- Redshift优劣
基于AWS的使用总结- Redshift优劣标签(空格分隔): BlogAWS的数据仓库服务-Redshift,可以比较快速方便地实现数据仓库的基础模块,我们小红书的数据仓库目前就是基于Redshift。
2016-01-13 15:25:41 5253
原创 Vim多行注释
[纯备忘]在使用vim的时候,一想起IDE中的类似/*** Here is comment block.*/就想知道vim里边怎么用呢?个人用过的三种,个人觉得方法二最为便捷,一直在用方法一:session中执行:start-line-num,end-line-num s/^/#/g其实就是一步替换操作方法二:1. CTRL+V选中需要注释
2015-02-05 15:19:16 587
原创 Storm运行出现Client is being closed, and does not take requests any more引起的Netty故障跟踪
Storm运行出现Received invalid messages for unknown tasks. Dropping引起的Netty故障跟踪及解决。
2015-02-04 17:15:37 4047 3
原创 Storm-Kafka模块之写入kafka-KafkaBolt的使用及实现
Storm-Kafka模块之写入kafka-KafkaBolt的使用及实现
2015-01-26 10:35:59 6954
原创 Hive使用动态分区问题
过多的动态分区会导致job出现以下情况:org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/hive-mai
2014-11-18 18:44:11 1395
原创 HIVE使用CTAS出现void类型字段报错
最近使用hive CTAS语法时候遇到一个语义级的异常,Hive版本0.13操作如下:create table temp.ldc_test_basselectcase when length(regexp_extract(event_obj_name,'^([A-Za-z_]+)([0-9]+)$',1))=0 then event_obj_name else regexp
2014-11-18 18:36:02 4471 1
原创 使用Phoneix踩过的坑
1.limit支持的问题不支持limit N,M类mysql的写法,应该是limit N目前DWAPI中配置的返回条数中如果不手动写limit N,它会按照下拉框:返回结果限制数 生成LIMIT N,M语法,导致sql执行失败异常信息举例:2317:java.sql.SQLException: ERROR 602 (42P00): Syntax error. Mis
2014-11-18 18:02:42 8873
原创 如何使用JDK及Linux工具查找进程中最忙的线程
最近一个项目中在测试的时候发现负载总是很多,为了想看看到底是什么线程比较占用CPU首先先用top查看占用最高的pid,筛选pid的话可以用项目先用账户名(我的是storm)pid => top -u storm|head -n 1 |awk '{print $1}'然后再根据这个pid使用top查看进程中最忙的线程,threadId => top -Hp $pid
2014-11-18 16:19:17 1195
原创 lein安装问题
clojure使用lein作为包管理及编译工具,所以在开始你的clojure之旅的开始,需要安装一下leiningen(注意读音) lein的项目维护在github:https://github.com/technomancy/leiningen,可以按照安装方案进行,不赘述,以下是安装过程中碰到的问题安装环境:OS: [dcli@nfzm ~]$ head
2014-10-23 10:44:09 6055
原创 一次调试无法打印日志问题经历
问题产生的现象是:storm任务启动后无日志输出(指的是$STORM_HOME/logs下无对应日志)控制台输出如下:SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/vipshop/platform/storm-0.9.0.1/lib/logba
2014-10-17 17:42:22 3542
原创 如何对Hive UDF进行使用线上数据达到回归测试
转至元转至元数据起始本地功能测试UDF的测试应当尽量使用Junit/TestNG进行测试,Keep the bar green to keep your code clean.每次开发后为了保持代码的兼容,需要保留original test case,在进入测试阶段后,需要进行以下步骤:那么如何使用线上的数据进行贴源测试呢?
2014-10-16 18:54:45 1572
原创 storm源码分析-日志服务
以下基于storm的版本: 0.9.0.1storm中各种日志是排查问题的有效工具,但是这些日志是怎么形成的呢?storm使用logback作为日志服务插件,配置文件见$STORM_HOME/logback/cluster.xml我们目前主要关心worker、nimbus、ui、supervisor日志,METRICS、ACCESS这些比较简单worker-xxxx
2014-10-14 18:19:18 4206 1
原创 使用maven管理scala项目
在初始化环境的问题上一向做法比较多,可能我的做法并不是最优首先使用maven构造器新建一个工程mvn archetype:create -DgroupId=org.tony -DartifactId=scala这样会按照默认为java的工程建立接下来,我们需要引入maven管理scala项目的一个插件:maven-scala-plugin官方的文
2014-08-20 15:52:51 6175 1
原创 IDEA中scala ClassNotFound问题
看到maven引入的libraries引入的是compiler-bundle,下面包含三个jar:>scala-compile>scala-library>scala-reflect需要将这个bundle的jar加入需要执行main所在的module,这样代码就可以run了,并且可以直接使用println(),而不需要System.o
2014-08-11 19:04:47 2169
原创 HiveOptimization--Reduce进程缓慢问题
最近对线上一个执行频率为半小时的任务进行优化,需要在每半个小时的前二十分钟内完成,但是因为前置大概需要执行7/8/9min,所以该job必须在10min内执行完成。 目前发现需要进行优化的较多出现在出现join、distinct的情况下,而且一般都是reduce过程较慢。 Reduce过程比较慢的现象又可以分为两类:情形一:map已经达到100%,而reduce阶段一直
2014-05-26 19:17:54 6818
原创 将博客搬至CSDN
将博客迁移至csdn,欢迎访问csdn主页:[url]http://blog.csdn.net/tonylee0329[/url]
2014-05-21 17:21:02 63
unix对组、用户操作
简介:本文主要介绍linux的用户、组的概念,如何创建组、用户;如何更改相应内容等涉及的文件:/etc/group 、 /etc/gshadow/ 、/etc/passwd 、/etc/shadow一、[color=red]组[/color]1.创建组groupadd -g 555 ddclick [创建ddclick组,GID为555]2.为组添加新用户gpas...
2013-03-07 14:57:50 242
Storm程序运行出现 Received invalid messages
2015-02-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人