- 博客(12)
- 资源 (4)
- 收藏
- 关注
原创 修改mysql目录
利用软链,简单不易出错service mysqld stop mkdir /data/mysqldb/mv /var/lib/mysql /data/mysqldb/ln -s /data/mysqldb/mysql/ /var/lib/service mysqld start
2015-12-24 18:35:41 462
转载 两种数据格式(Parquet/ORCfile)浅析
一、首先来看下ORCfile。Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存储格式,是对之前的RCFile存储格式的优化,是HortonWorks开源的。看下orcfile的存储格式: 可以看到每个Orc文件由1个或多个stripe组成,每个stripe250MB大小,这个Stripe实际相当于之前的rcfile
2015-12-11 22:19:36 25244
转载 深入分析Parquet列式存储格式
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。列式存储列式存储和行式存储相比有哪些优势呢?1. 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。2. 压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使
2015-12-11 22:02:37 951
原创 JAVA GC调优零碎记录
是否需要进行GC调优决定是否进行Java GC调优,前提是主要看新生代的Minor GC和老年代的FULL GC 的GC频率和每次GC停顿的时间对于业务来说是否可接受,一般满足以下条件,可不用考虑GC调优(仅参考,具体还要看业务)1 MinorGC执行的很快(小于50ms)2 MinorGC执行的并不频繁(大概10秒一次)3 FullGC执行的很快
2015-12-10 20:24:24 699
原创 java实现lpad函数
public static String lpad(String str,int num,String pad){ String n_str=str; if(str==null) n_str= " "; for(int i=str.length();i <num;i++){ n_str=pad+n_str; } return n
2015-12-03 15:29:27 5980
原创 java正则解析url获取域
String host=""; try { host = new URL("http://www.mysite.cn/va3.html").getHost().toLowerCase(); } catch (MalformedURLException e) { // TODO Auto-generated catch block e.printStackTrace
2015-12-03 15:26:53 1605
原创 hive UDAF行列转换
目标实现1 a1 b2 a2 c转换为1 a,b2 a,cpackage com.hive.udf;//用法 select a,concat1(b,',') from concat_test group by a;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoop.hive.
2015-12-03 15:22:15 856
原创 hive udf使用间隔
计算用户使用app间隔,预先排重排好序得到 cookie 日期 当前日期,倒排序后作为参数传入。里面逻辑根据具体需求再调整。package com.hive.udf;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.ut
2015-12-03 15:17:13 737
原创 hive udf获取当前月最后一天
package com.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.net.URLDecoder;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import ja
2015-12-03 15:07:18 9471
原创 hive udf urldecode
package com.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.net.URLDecoder;public class UDFDecoderUrl extends UDF { private String url = null; private int times = 2;
2015-12-03 15:04:12 6070
原创 github使用记录
cd test进入到该托管项目的根目录输入git add . 将改动的地方添加到版本管理器输入git commit -m "changes log" 提交到本地的版本控制库里,引号里面是你对本次提交的说明信息。最后输入git push -u origin master 将你本地的仓库提交到你的github账号里,此时会要求你输入你
2015-12-03 15:01:13 463
原创 impala初期使用零碎记录
搭建impala搭建参考cdh官方文档,有详细步骤,其中copy hdfs-site.xml、core-site.xml、hive-site.xml至/etc/impala/conf后注意参数dfs.client.read.shortcircuit只允许在/etc/impala/conf里core-site.xml hdfs-site.xml里配置,不在/etc/hadoop里配置并且
2015-12-03 14:48:08 2640
处理后的ip库
2015-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人