- 博客(41)
- 资源 (14)
- 收藏
- 关注
原创 hive 跨集群迁移
hive跨集群迁移数据工作中相对比较常见的事情, 其中涉及到数据迁移, metastore迁移, hive版本升级等.1. 迁移hdfs数据至新集群hadoop distcp -skipcrccheck -update hdfs://xxx.xxx.xxx.xxx:8020/user/risk hdfs://xxx.xxx.xxx.xxx:8020/user/risk-skipcrccheck 因
2016-01-20 22:49:24 7062
原创 oozie action配置retry-max失效
本Markdown编辑器使用[StackEdit][6]修改而来,用它写博客,将会带来全新的体验哦: 有同事反应,使用oozie编写wf脚本时, 设置retry-max=15(重试次数),并没有生效, 无论设置多少, 都仅仅重试3次.<workflow-app name="AOF_ETL_JSS_WF" xmlns="uri:oozie:workflow:0.4"> <start to="
2016-01-17 21:21:49 2554
原创 docker自定义docker ps及常用组合命令
我们开发过程中, 有部分是截取docker ps的监控, 但是dockerps 的所属信息较少,比如父进程号, 子进程号, 当前挂载信息等没有办法能够获取,故此我们需要自定义输出我们定制的docker ps.docker inspect 容器号或容器名称能够输出容器的详细信息,如:[{ "Architecture":"amd64", "Author":"wangz
2016-01-17 12:24:17 24014 1
原创 关于mapreduce的topN的问题
前段时间有位同事的mr在集群上时而通过时而挂掉, 错误是2015-12-28 11:13:26,013 INFO [main] org.apache.hadoop.mapred.Merger: Down to the last merge-pass, with 2 segments left of total size: 1640163582 bytes2015-12-28 11
2016-01-07 23:07:13 2673
原创 orcfile 与 parpuet 的压缩测试
近期使用hive对orc 与 parpuet做了初步的压缩比分析, 通过压缩2.3表数据,得到的结论为: 1. 非压缩的orc/parpuet ,parpuer查询与文件大小,应较好一些. 2. 经过压缩算法: parpuet 的gzip压缩方式的压缩比最小, 达到15% - 25% 3. 写入速度最快的应是orc, 较parpuet快了将近1.5倍.后续会对
2015-12-26 22:53:29 1761
原创 flume日志抓取设计
近期实在没有什么可写的了, docker遇到很多的坑, 只能先写一点其他的东西, flume用的公司很多, 不过一般成熟的一二线的公司基本是很少使用, 他的性能和网络传输一直是有提升空间的, 对于我们这些小公司出身的人,曾经还是靠他混饭吃的.设计是两年前的实现, 现在觉得很多不是很合理的地方,特别是在分流的设计上,不过flume的传输占带宽的问题也一直没有解决,曾经对flume做了部分优化,写
2015-10-21 20:34:24 17270 3
原创 关于docker build时间过久及add不能跨文件的问题
我们使用自动程序buildimage镜像,其中过程中发现很多诡异的问题, 有很多尚在解决中, 但是同时buildimage, 高频度的连续buildimage依然有部稳定的情况,特别在超过5G以上的镜像时,发生的概率极高.我们先说两个问题: 1. docker build 时间过久,其中绝大部分时间在Sending build context to Docker daemon
2015-10-18 20:54:41 5372
原创 关于docker包存储结构说明
前段时间与同事交流docker的安装包层次结构,并沟通相关每个文件的作用,但是一直没有进行文字备份, 过去已经一月有余,还是将其记录下来,供后续工作参考默认docker启动会将目录安装在/var/lib/docker中,不过建议可以修改 --graph="/path/docker"安装目录.防止系统盘空间占用过大,最好选择存储空间较大的分区. docker目录:
2015-10-09 20:45:11 3869
原创 随机数组遍历
随机遍历数组是分布式开发中较为常见需求, 同时也有部分业务系统会类似的需求.通常使用java方式实现,代码相对较多, scala实现则相对较为简单实用:Random.shuffle(数组)数组随机读,同时不重复:for (pid <- Random.shuffle(Seq.range(0, 10))) { print("----"+pid)}
2015-04-03 10:03:39 1786
原创 scala实现设计4个线程,其中两个线程每次对j增加1,另外两个线程对j每次减少1
今天早上忽然想起来, 刚毕业工作时候,有道线程题,是实现设计4个线程,其中两个线程每次对j增加1,另外两个线程对j每次减少1.如果是java而言,实现非常简单,scala实现则更简单,更易理解.当然没有特别漂亮的代码,今天想起来试了一下,感觉有点意思:object ActorServer extends Application { import akka.actor.{ Actor
2015-04-02 10:44:36 1305
原创 spark的FairSchedule
spark 内置TaskScheduler级别的调度算法,分别是队列与公平,默认是队列方式。具体源码可参考SchedulableBuilder准确来讲spark有两层公平,一层是公平调度,一层是公平算法,如此便可使用公平调度+公平算法 或 公平调度+队列算法公平调度方面,spark的多队列设置在standlong模式下则是较为鸡肋,原因在于没有动态选择队列执行任务的权利,同时公平调度仅仅是
2015-03-16 18:31:54 3604
原创 关于Spark的Broadcast解析
首先,推荐下大神的文章,http://blog.csdn.net/column/details/spark.html仅作为大神未未提到的细枝末节,进行补充。Broadcast(广播)是相对较为常用编码功能,通常使用方式,共享配置文件,map数据集,树形计算结构等,为能够更好更快速为TASK任务使用相关变量。期间,曾见过有同学讲原始日志(log)进行广播,导致集群运行缓慢,诸
2015-02-08 22:44:19 28508 2
原创 欢迎到来,俺的地盘
3Q,非常感谢,以前一直在javaeye,infoq看帖子,很无耻的从不发言和注册帐户....最近良心发现..决定痛改前非,注册帐号后必定与大家多交流....
2011-03-12 04:34:07 149
原创 TCP/IP协议:TCP与UDP的理解
TCP与UDP是属于第四层的运输层的协议,也是整个TCP/IP协议族的核心协议,并且TCP与UDP是同级的; TCP是可靠发送数据,他本身是基于流的发送,并且为了安全他发送数据前会去创建连接,如果传输过程中有遗失,会自动重传遗失资料; UDP是一层简单的封装,几乎不做任何处理,直接交给IP发送数据,所以他是基于报文形式的; TC
2009-05-30 21:54:00 1599
原创 oracle的笔记,凑合着看吧!8.分页以及rownum
oracle是用虚拟列的rownum代表行数,写法呢; select * from (select rownum as r, ename from emp where rownum 5; 记得他只能使用(大于号)时 候只有rownum > 0 时会得到记录; 顺便说明一些对于rownum的理解吧,他呢,是一个虚拟列,本身就是数
2009-05-27 14:06:00 740
转载 资料:OSI模型
OSI模型OSI/RM参考模型的提出 世界上第一个网络体系结构由IBM公司提出(74年,SNA),以后其他公司也相继提出自己的网络体系结构如:Digital公司的DNA,美国国防部的TCP/IP等,多种网络体系结构并存,其结果是若采用IBM的结构,只能选用IBM的产品,只能与同种结构的网络互联。 为了促进计算机网络的发展,国际标准化组织ISO于1977年
2009-05-26 23:24:00 1280
原创 oracle的笔记,凑合着看吧!7.事务以及性能提升
事务,已经是烂谷子的话题了,我又不是之前玩spring的那个小白痴了,事务,可笑呢,哥我熟到掉渣了;事务简单说就是一起递交,一起回滚,保证数据的完整性;oracle的事务就三个关键字: begin transaction(事务开始), rollback(回滚) ,commit(结束事务);事务的隔离级别为四个,分别是为未递交读,递交读,不重复读,串行化;oracle设置的隔
2009-05-26 23:18:00 618
原创 oracle的笔记,凑合着看吧!6.分区
分区,个人理解就是将一个大表分解成小表储存,可以提高各方面的性能; 范围分区(range): 就是一个确定范围的分区,如星期一到周日为一个范围,每个星期为一个分区; 语法: partition by range(字段) ( partition 分区名 values less than(范围)
2009-05-26 23:17:00 815
原创 oracle的笔记,凑合着看吧!5.PL-SQL的初级技巧
if判断: 关于简单的if逻辑判断,简单的说下; 语法 : if 表达式 then --业务逻辑-- end if; 例子:修改记录,如果没有找到就输出你好; declare name emp.sal%type; v_sal emp%rowtype;
2009-05-26 23:16:00 638
原创 oracle的笔记,凑合着看吧!4.PL/SQL
PL/SQL是SQL的补充语言,相当于数据库内置的一种语言,用于写存储过程与触发器;拥有功能:块结构,变量和类型,条件逻辑,循环,游标,保存查询返回结果,sql函数,存储过程,包; 1.存储过程:就是带有名字的PL/SQL的程序块,创建后可以直接调用,仅此而已; 语法:create or replace procedure 存储过程名(
2009-05-26 23:14:00 628
原创 oracle的笔记,凑合着看吧!3 比较杂烩的一些东西
insert all 多表插入 他可以同时操作多个表,将多条insert语句共同协作一句sql完成; 语法: insert all into 表名 values(列名) (可以跟搜索语句); 表连接: 表连接分为左联接,右连接,全连接; 左联接 select * from emp a left join dept b o
2009-05-26 23:09:00 645
原创 oracle的笔记,凑合着看吧! 2 简单的运用技巧
oracle的技巧有许多,这里只是简单的一些应用,当然了;这都是咱会滴,不会滴那俺也没什么办法,不是;SQL的分页语句: 主要概念是子查询,他拥有两个条件,嵌套的子查询中拥有一个条件,然后外查询中也拥有一个条件; 注:条件1为广义条件,条件2为狭义条件,取交集; select * from (select n.* , 行数 from 表名 n
2009-05-26 23:07:00 514
原创 oracle的笔记,凑合着看吧! 1.简单的用法
网页页面方式:http://localhost:5560/isqlplus/DBA命令:更改用户: alter user 用户名 account unlock;删除用户: drop user 用户名;创建用户: create user wang identified by wang default tablespace users quota 10M on users
2009-05-26 23:04:00 637
原创 IP协议:的划分以及子网掩码
IP 是TCP/IP协议族的核心协议,也是现在网络中最常用的协议,因为大家上网都会知道每个人只拥有一个ID; 他的特点是: 是拥有普通的网络寻址点,并且面向无连接的协议的特点,他是只管发出去,不管是否那个人真的收到,所以一般来讲他比较快; 他拥有网络ID与主机ID 一些IP的表示规则: 特定的网络地址是 网络尾数的地址是0,例如C级IP: x
2009-05-26 22:51:00 1195
转载 一个老程序员的心里话!
曲折的实践之路 1.希特勒地堡与cih病毒 99年4月,我来到北京参加研究生复试。复试完了之后就不回去了,我拿着一张光盘,里面刻着我用vb和authorware3.5编的一个cool 3d的教学软件,到处参加招聘会,开始了在北京的打工生涯。 说句实话,我心中真是一点底也没有。北京人才济济,我一个三流大学的毕业生,又不是计算机专业的,有人要我吗?
2009-04-23 18:56:00 818
原创 struts2的注解
标注是取代struts.xml的一种手段,也是以后发展的目标所在,会EJB3.0的人都知道标注是如何取代XML的存在,他拥有多少的潜力,无论是JPA等orm映射还是其他的WEB框架都在进行注解的洗礼;标识是以后发展的方向,因此对此不可视而不见,它虽然不太成熟,但了解却是必然的;首先需要改动的是web.xml: struts class> o
2009-01-04 17:24:00 5134 5
转载 EJB3学习笔记之 EJB3中的注释(一)
出处:http://julycn.javaeye.com/blog/1561131. @EJB注释其常用属性如下: beanName:指定EJB的类名(不带包名), mappedName:指定Bean实例的JNDI名。例如: A、@EJB(
2009-01-04 14:57:00 1355
原创 翻了翻以前的UML笔记,发现一些不错理念
对象=数据+数据操作;类与对象的关系是类是对象的模板,类拥有对象的抽象,对象是类的实例;对于对象的选取名词,也非常有说法,这个就是经验而言,要体会很难说清楚,从不同的角度决定选取名词的关系;但选取名词一定是最有表述意义的;经验:开发第一步首先要确定开发系统的范围,然后再范围中寻找对象,进而将对象抽象成一个类; 从而开发项目的需求,一般性的分析是对象模型,动态模型以及功能模型,三个点布线
2008-12-22 22:50:00 690
原创 JBOSS的小问题javax.naming.NameNotFoundException: ... not bound
布置JBoss有时候会遇到javax.naming.NameNotFoundException: ... not bound;某个类找不到,一般是在EJB+Jboss使用出现这个异常;异常通常会出现在InitialContext.lookup()方法中;此异常是jboss版本过低引起的 ,通常是4.05以及其以下的版本出现,在下更换到4.23,便解决此问题
2008-12-16 17:06:00 7537 5
原创 java的注解
注解其实是一个发展方向,他虽然不能取代xml的地位,但是却能够融合xml的用法,使得代码更加简化,更加的松耦合,使得性能得到最大的提升,故此注解便是一个发展的趋势;JDK的内置标签: @Override 用于检查方法名是否正确; @Deprecated 不赞成使用方法,比如说JDK某个方法过时,便是是用这个标注修饰;简单写一个例子便于大家理解:首先是java注解;他需要先创建一个对应的
2008-12-15 12:39:00 686
原创 struts2的一些用法(五):struts2+Spring整合
关于整合其实简单的要命的事情,暂时只掌握到struts整合的一种方式; 简单说就是代理Action: 步骤: 1.导入包--struts2-spring-plugin-2.0.11 2.以及web.xml设置spring的listener: class>org.springframework.web.context.Co
2008-12-15 12:34:00 692
原创 关于DWR的使用
关于dwr的配置是很简单的事情,要看如何去理解,然后去完成配置:技巧:进入测试页面,/项目名/+dwrweb.xml的配置: dwr-invoker class> org.directwebremoting.servlet.DwrServlet class> debug //配置debug模式; tru
2008-12-15 12:24:00 655
原创 解决struts2的数据校验会促使action与框架耦合问题
之前有被这个问题一直困扰着, action必须继承ActionSupport,才能实现验证;但如果实现此类便表示他依赖于struts2的框架,反而违背他的思想,思想是一切的灵魂,没有灵魂或违反灵魂的存在,会让人对其失去美感,失去生气;解决办法,可以写一个验证的action,验证成功方能执行真正的action; 例如: "regValidate" class="bank.action.val
2008-12-14 20:29:00 668
原创 struts2的一些用法(四):部分数据验证
普通的数据验证是很简单的validate,就不谈了,直接说说XML的验证,具体解决一些问题; 注:普通的数据验证便是代码验证,个人习惯叫法而已;顺便先说个简单的普通数据验证的技巧:动态的validate方法,我们通过struts.xml配置mothd方法名,故此我们还可以在validate+方法名(),编程动态的验证框架,如validateAdd();注:无论validate+方法名或XML,只要
2008-12-14 20:21:00 1487
原创 hibernate的批量删除
呵呵,来说说hibernate的批量删除;一般而言,hibernate的批量删除的写法有两种,一种是hibernate内置的批量删除,不过他的批量删除是将每条记录逐一生成删除语句,其效率极低,当然我们可以使用抓取策略给其进行优化,不过这只是亡羊补牢的方法,效率的提升依然不能让我们满意,很不推荐使用;另一种是由"拼串"形成的HQL语句,其能够形成一条语句,从而是效率得到最大的提升;我们先说"拼串"形
2008-12-14 14:15:00 24922 4
原创 struts2的一些用法(三):3.拦截器的设置
struts2的拦截器是基于AOP的机制,底层应用的是JDK代理,挺白痴的,明明CGlib更好一些的技术,竟然以JDK的动态代理作为主轴,勉强可以用面向接口编程来解释,不过局限性差到让人落泪,设计的人脑袋坏了不成;拦截器本身也算是struts2的亮点之一,不过与spring的AOP相比,的确是相形见拙; 1.现在说说拦截器,连接器本身需要继承接口或者抽象类,抽象类:AbstractInterc
2008-12-13 14:22:00 1741
原创 struts2的一些用法(二):类型转换
struts2的类型转换,还算有点意思.这里就说一下吧!转换器分为两种,一种是局部,一种全局;1.局部转换器 写一个自己创建的VO类,然后再写个转换类; 转换类需要集成DefaultTypeConverte类,进而实现它的convertValue(Map context, Object value, Class toType)方法; 最后配置properties文件,文件一
2008-12-13 14:17:00 871 1
原创 struts2的一些用法(一):struts2的配置
struts2是通过增强(advice),来执行方法的; 个人猜测是:通过struts.xml,配置出增强的,容器加载的时候,他自动如Ioc一般,自动创建类,以及将表单 数据注入到action实现类的方法里,然后再利用反射自动运行execute方法; 当然在execute方法之前会织入一些框架的拦截器; 1.struts.xml格式: "struts2" e
2008-12-13 14:02:00 947
原创 关于struts2拦截器错误
Unable to find interceptor class referenced by ref-name work - interceptor-ref - file:/C:/Program%20Files/Apache%20Software%20Foundation/Tomcat%206.0/webapps/struts_test/WEB-INF/classes/struts.xml:11
2008-12-02 05:42:00 1114
Jive+源码+资料+使用
2009-12-20
天线知识-专题资料(华为).pdf
2009-12-20
iText-src 源码
2009-09-12
iText-解析PDF与RTF文件
2009-09-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人