自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 hive UDAF之cube

之前有想实现在hadoop上面自动cube,并计算同比的自动化解决方法。过考虑用UDAF去做但是一直没有去实现,最近项目中需要根据配置自动聚合生成数据,目标结果表格式固定,正好满足自动cube的场景,所以就搞了个demo,还在测试中[code="java"]package com.taobao.voc.hive.udf;/**  * description :对传入的多个维度...

2014-04-10 20:51:36 171

原创 svn

svn常用命令svn add hive_sql/xx.sqlsvn delete hive_sql/xx.sql取消本地操作: Svn revert --depth=infinity .

2014-03-07 17:28:47 420

原创 maven 工程把依赖包打入jar包

将依赖打入jar包,由于maven管理了所有的依赖,所以将项目的代码和依赖打成一个包对它来说是顺理成章的功能。maven的这个功能之前就用过,但这次使用时忘了细节,只记得用maven的assembly插件,但assembly插件功能强大,可以打zip、war各种包,所以一下子找不到如何将依赖打入jar包了。浪费了一点时间,所以一定要记录一下。在pom.xml中加入如下配置即可,关键是con...

2014-02-17 19:39:04 369

原创 谢谢你2013

钱的债要还的,年终总结走起,谢谢你2013,你好2014好难,不知从哪说起。2013从变化开始,团队人员变动,工作内容在变,心态在变,方向没变。心态:年初有2个一起奋斗的同事,一个回了老家,一个趁年轻出去了,打算闯几年,挺好的都在一个城市,相信你俩到哪都会有自己的一片天地。所以工作边界又多了一点,能有更多机会接触业务方和更多的人,我发现与人沟通真的是一件能然你收获很多的东西,每...

2014-01-12 19:11:46 143

原创 oracle 索引类型- 不同角度分类

逻辑上:[code="java"]Single column 单行索引Concatenated 多行索引Unique 唯一索引NonUnique 非唯一索引Function-based函数索引Domain 域索引[/code] 物理上:[code="java"]Partitioned 分区索引NonPartitioned 非分区索引B-tree:No...

2014-01-08 09:53:18 123

原创 Linux下java进程CPU占用率高-分析方法

今天登陆同事的一台gateway 开始以为hive环境登陆不了了,仔细一看看了下是因为机器很卡,我每次等几秒没登陆就ctrl+c了,看了下是有个java进程cpu:340.4% mem:14.6%一般解决方法是通过top命令找出消耗资源高的线程id,利用strace命令查看该线程所有系统调用1. 通过top命令找到可疑进程PIDtop 一下可以看出java进程CPU利用率...

2014-01-04 20:11:10 368

原创 hadoop+hive+mysql 环境搭建

hadoop和hive公司内有rpm包,安装很方便,MySQL安装也不麻烦hadoop安装 http://wiki.aliyun-inc.com/projects/apsara/wiki/yunti1sqa/users1、在线安装rpm包,也可下载rpm包本地安装[code="shell"]sudo yum install -y yunti-hadoop[/code]2、修...

2013-12-31 13:21:41 220

原创 mysql 2个表字符集不同join时不能正确走索引

昨天一个同事做数据迁移引起一个故障,原因是2张表字符集一个为gbk,一个为utf8,并且join key为vachar类型,导致不能正确索引,导致数据库超时,修改字符集编码后正常。本地重现了一下:一、搞测试数据,文章最后又脚本二、建索引--删除多余索引[code="sql"]drop INDEX index_student_s_age on student ;drop IN...

2013-12-05 13:59:40 1021

原创 hive 抽样统计

本文转自http://www.taobaotesting.com/blogs/2468,原文分层抽样的逻辑不是很清楚,按照自己的想法重新实现个算法中可能会需要做抽样。用hive实现了随机抽样中简单随机、系统和分层抽样的方式,记得抽样的概念还是初中数据接触的其实很多时候不需要理论,想也是可以想到的,不过还是总结一下 0.测试表: [code="sql"] dr...

2013-11-29 19:38:45 306

原创 python 检测本机公网IP,变化时邮件通知

[code="java"]【完全转载】http://tomxu.iteye.com/blog/1289216代码如下:#!/usr/bin/env python# -*- coding: utf-8 -*-# author: heidanine# file: checkWapIp.py# modified: 2011/03/20 01:40#...

2013-05-20 16:18:09 874

原创 sublime 插件开发-自动生成代码头

1、首先要熟悉sublime api,插件可以用python开发,这个很好,写好代码,保存到默认的目录应该是\SublimeText2\Data\Packages\User下面,可以按下快捷键Ctrl + ‘ 打开SublimeText的控制台,执行如下命令就可以运行刚刚写的小插件,测试效果:[code="java"]view.run_command('insert_signature')...

2013-05-20 16:15:02 160

原创 重新安装hadoop

本文介绍hadoop 最简单配置,保证能本地测试自己写的程序,更多配置可参照末尾文章链接。之前在虚拟机中安装过hadoop hive hbase,电脑重做系统了,本次需要重新安装,虚拟机实在不方便,转cygwin吧,这个东东不错,window上可以用linux的很多东西,本地查看项目的log也很方便,比如 tail -fn 20 xxx.log 可以观察log输出。一、cygwin安...

2013-05-20 15:27:07 2021

原创 多人调试同一台服务器,追踪ip

日常开发中,项目环境还是日常环境经常会发生多人调试同一台机器(开发和日常一般就一台),想知道谁在调试最简单是可以在群里吼一下,也可以把这个人‘抓’出来,思路如下:1、服务器上看下监听端口有哪些ip在链接,一般不会很多,我设置的监听端口是8787netstat -apn | grep 87872、抓到ip在window局域网 ping -a 显示机器名 就能看到是谁的机器了同样可以用...

2013-05-17 16:26:12 210

原创 oracle 常用函数

求时间差:天:ROUND(TO_NUMBER(END_DATE - START_DATE))小时:ROUND(TO_NUMBER(END_DATE - START_DATE) * 24)分钟:ROUND(TO_NUMBER(END_DATE - START_DATE) * 24 * 60)秒:ROUND(TO_NUMBER(END_DATE - START_DATE...

2013-05-14 09:55:11 67

原创 Http 响应头

前端时间写了一些爬虫程序,经常用chrome看提交的参数什么的,今天周五有点闲,详细看看请求头和响应头都提交了什么参数,顺便温故了下cookies和session来龙去脉,下面是自己收集的各参数的含义:有的博客说响应头分几个域,什么通用域,请求,响应,Date头域等等……,个人感觉记这些和分类没多大意义,你看见Cache-Control:max-age=0知道什么含义,这才是最根本的,如下:...

2013-04-12 16:00:30 119

原创 python 生成可执行文件

平时工作中有个操作就是代码部署,代码部署流程是这样的1、提交代码到svn库2、打包(3个不同的包)3、等10分钟4、部署我们的代码都是sql代码,所以会频繁发布,每个人一天发布4 5次都是正常的,而且每次发布要走好几部流程,去几个页面,最坑爹的是打包系统需要等10分钟,这样就会经常出现10分钟后代码部署了,才发现,svn忘记提交了,或者是忘记打包了,再次搞,所以很苦逼,就写了个...

2013-04-11 19:52:31 578

原创 FP-tree 关联规则挖掘

去年公司1拆4,再拆3,在拆25,真是72搬变化,看的我等屌丝一阵胆寒,但一年过去了并没有影响我和同事们的工作,也没有听得到一些负面消息,nice,看来level还查一大大截。拆25的一个大的结果是前台流量必然被瓜分,这个应该会很纠结,有点远,打住。今年我的技术方向有BI转向算法多一点,这也是我个人很甘兴趣的,团队专注于CRM这一块,现在提的比较多的是CEM,好像你还再提crm...

2013-03-31 20:49:38 156

原创 hive wiki -UDTF

1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。实现initialize, process, clos...

2013-03-19 15:56:26 105

原创 没有总结就没有进步之开天辟地

--本篇内容纯非技术内容 著名的成功学定律“细节决定成败”,说的没错,日常工作中,生活中也是一样的道理,细节即是习惯,而时长回头看一下自己走过的路,想一想走过的路,再想想前面的路,一定会有很多很多踩过的坑,下次会再踩到,如果不去总结和思考,一定是再很多……,扯的有点远之所以表达弄这么大是给自己一个惊醒,你需要总结了版主,还答应老婆每周至少2篇博客,多写一些总结性的,那就从今天开始吧,习惯...

2013-02-23 23:27:44 143

原创 hdfs常用命令总结

hdfs模拟了很多linux命令,用法也很类似,平时用到的整理如下:hadoop fs +类似linux命令cat使用方法:hadoop fs -cat URI [URI …]将路径指定文件的内容输出到stdout。示例:hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2had...

2013-01-06 11:38:10 178

原创 python-论坛学习-

快速提供静态页面HTTP服务比如需要提供的页面存放在 D:\home\admin,有3个文件,index.html a.html hello.html1、只需要在当前目录执行 [code="java"]python -m SimpleHTTPServer 【4087】[/code]2、现在就可以访问了,访问地址[code="java"]http://localhost:4087...

2012-09-04 16:08:08 91

原创 tesseract-ocr图片识别开源工具

今天看同事的ppt,提到了图片识别,又tesseract-ocr,觉得不错,试一下,如果效果好可以用来做验证码的识别http://code.google.com/p/tesseract-ocr/tesseract是一款开源工具,我安装了Windows版试水先1、首先登录首页在‘下载’页面下载[code="java"]tesseract-ocr-setup-xx.xx.exe ...

2012-08-27 17:23:12 314

原创 Java中使用Runtime和Process类运行外部程序

使用Runtime.getRuntime().exec()方法可以在java程序里运行外部程序。 [code="java"]1. exec(String command) 2. exec(String command, String envp[], File dir) 3. exec(String cmd, String envp[]) 4. exec(String cmd...

2012-08-27 14:33:24 71

原创 ORACLE 分区表,分区索引,及其相关概念

ORACLE对于分区表方式其实就是将表分段存储,一般普通表格是一个段存储,而分区表会分成多个段,所以查找数据过程都是先定位根据查询条件定位分区范围,即数据在那个分区或那几个内部,然后在分区内部去查找数据,一个分区一般保证四十多万条数据就比较正常了,但是分区表并非乱建立,而其维护性也相对较为复杂一点,而索引的创建也是有点讲究的,这些以下尽量阐述详细即可。 1、类型说明:ran...

2012-08-27 14:31:09 60

原创 python乱码问题小计

python乱码问题小计:中文输出时遇到乱码,查了下,整理如下首先区分代码编码格式,和本地编码,前者好理解,后者即程序把输出交给了操作系统,操作系统的编码就是本地编码一般python代码习惯指定代码编码格式,如下:[code="java"]#coding=utf-8import reprint('中文')[/code]那“中文”编码为utf-8,想想如果本地编码...

2012-08-24 11:59:48 85

原创 ORACLE 分区表,分区索引,及其相关概念

下午看了下分区表和分区索引的用法,并测试了一把,一个已经优化过的的sql未建分区表执行时间为78秒,分区,索引后只用10秒:以下内容转载于[url]http://blog.csdn.net/xieyuooo/article/details/5437126[/url]ORACLE对于分区表方式其实就是将表分段存储,一般普通表格是一个段存储,而分区表会分成多个段,所以查找数据过程都是先定位...

2012-07-22 16:30:58 80

原创 Oracle执行计划

最近做数据迁移,重拾Oracle,买了从来没看的Oracle书可以发挥价值了,学执行计划前先普及一点基本概念一、基本概念1、Rowid的概念,Oracle的一个虚拟列,用于命中索引后回表(根据rowid去文件块的某个位置读取数据),rowid在该行的生命周期内是唯一的,即即使该行产生行迁移,行的rowid也不会改变2、Recursive SQL概念:用户的ddl,dml操作会带来一些隐...

2012-07-17 00:45:14 99

原创 pentaho 简介

本文转载于:[url]http://blog.csdn.net/net_flyfox/article/details/3984824[/url]一、Pentaho BI 平台介绍 Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。...

2012-07-07 15:53:28 138

原创 hive UDF 学习 0.9.0

今天看下hive到什么版本了,目前最搞版本是0.9.01、先看了下udf更新内容,原文如下[code="java"]A java class and method often exists to handle the exact function a user would like to use in hive. Rather then having to write a wrappe...

2012-07-05 09:27:20 50

原创 hive 源码学习一 -hive入口

昨天和师兄混了一天,中午还一起做了个饭,下午来我这游泳,晚上dota到深夜,挺hi的,谈了很多关于心态的,很久没这么沟通了周日把hive wiki差不都看完了,hivesql也很久了,一直没有时间去看下hive源码,才把源码checkout下来,导入eclipse,找到clidriver,入口了,明天继续阅读,对了,checkout出来的项目是ant的,eclipse导入需要手动配置 .cla...

2012-07-01 20:03:07 130

原创 hive wiki -UDF

今天回头看了下之前写的关于hive udf的博客发现好乱啊,最近又开发了一些工作中用到的udf(泛指),还是整理一下,也学对别人能有用(认知盈余)add [jar/file] 是讲文件放入session中,集群共享session中内容[code="java"] list jars;my_jar.jar[/code][code="java"] list files;x...

2012-07-01 14:34:47 82

原创 hive wiki-Syntax

写hivesql这么久,一直在看别人的博客,而官网wiki确没有去看,放弃了最权威的知识,今天开始用1周的早晨把wiki看完1、buckt:桶[code="java"]It is also a good idea to bucket the tables on certain columns so that efficient sampling queries can be execu...

2012-06-26 08:41:14 117

原创 多个复选框结果保存与显示

项目开发中经常会有多个复选框结果需要保存到数据库中,同时也需要在页面段显示,实现的方法应该很多,把我这次做的贴出来,如果有更好的处理方式欢迎留言一起探讨1、先看下页面效果[img]http://my.iteye.com/admin/picture/114726[/img]对应的复选框value为 1 2 4 8 即 2的 0123次幂2、存储很简答,直接把value的合存储即可...

2012-06-24 15:08:26 584

原创 hive UDAF求平均值

最近做数据迁移项目,把聚合部分从kettle迁移到hadoop集群上,需要写很多聚合脚本在论坛是看到alipay同事写过类似cube的UDAF,代码拿过来运行下报错,有几个地方没看多,而且没有注释,只好从基础开始看,自己搞一个,之前写过UDF所以入手还是听快的准备:1、实现自己的UDAF需要集成UDAF2、至少有一个内部类,实现了org.apache.hadoop.hive.ql....

2012-06-23 17:07:00 874

原创 AOP

昨天看见同事的项目中用aop监控慢sql,觉得aop慢强大的,看了写基本概念,写了个简答例子spring中对aop支持很友好,完全spring的方式配置,引入aop有2中方式@aspectj 和基于scheme配置方式,@aspectj用起来比较简洁和方便,所以例子用@aspectj完成的,觉得比较难理解的有1、切点和连接点的概念 2、切点表达式,切点表达式可以完成一个比较复杂的切点,功能蛮强...

2012-06-17 18:19:49 69

原创 MP爱的初体验

[code="java"]写MP需要合适的测试框架是必须的,Mockito是不错的选择,Mockito是一个流行的Mocking框架。它使用起来简单,学习成本很低,而且具有非常简洁的API官网:http://mockito.org/jar包下载地址:http://code.google.com/p/mockito/downloads/list[/code]...

2012-03-01 23:07:46 77

原创 参数配置

[code="java"]JVM内存JAVA_OPTS参数说明-server:一定要作为第一个参数,在多个CPU时性能佳51Testing软件测试网;R+l'[3Q^:g y ?-Xms:初始Heap大小,使用的最小内存,cpu性能高时此值应设的大一些Intellij Idea 10下面远程调试JBoss上运行的Web程序原文地址:http://hi.baidu.com/...

2012-02-21 14:05:24 73

原创 批处理删除 .svn 文件

[code="java"][初尝批处理——批量删除svn标志 keyit.focus();} // --> Shell 写了不少,批处理却一直没用过。简单的说,批处理就是一些dos命令的组合。今天小试牛刀,写了第一个批处理程序,顺便也了解了一下常用的dos命令。以前总觉得dos的东西有些过时,一直没有好好的学过,初次尝试了一下其便利性,也算多了一点知识。程序代码如下:@echo o...

2012-02-16 16:04:06 101

原创 eclipse快捷键

eclipse快捷键大全2007年03月21日 星期三 14:03eclipse快捷键大全 1. 常用快捷键 (1)Ctrl+Space 说明:内容助理。提供对方法,变量,参数,javadoc等得提示, 应运在多种场合,总之需要提示的时候可先按此快捷键。 注:避免输入法的切换设置与此设置冲突 (2)Ctrl+Shift+Space 说明:变量提示 (3)Ctrl+/...

2012-02-16 12:40:59 66

原创 WEBX 项目中 HSF 服务的发布

[code="java"] /WEB-INF/bean/xxx.xml .... /WEB-INF/bean/biz-factory.xml biz-factory.xml biz-services.xml ...

2012-02-14 16:40:51 149

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除