自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据技术控

学习笔记备忘录。。。

  • 博客(12)
  • 资源 (4)
  • 收藏
  • 关注

原创 修改mysql目录

利用软链,简单不易出错service mysqld stop mkdir /data/mysqldb/mv /var/lib/mysql /data/mysqldb/ln -s /data/mysqldb/mysql/ /var/lib/service mysqld start

2015-12-24 18:35:41 462

转载 两种数据格式(Parquet/ORCfile)浅析

一、首先来看下ORCfile。Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存储格式,是对之前的RCFile存储格式的优化,是HortonWorks开源的。看下orcfile的存储格式:  可以看到每个Orc文件由1个或多个stripe组成,每个stripe250MB大小,这个Stripe实际相当于之前的rcfile

2015-12-11 22:19:36 25241

转载 深入分析Parquet列式存储格式

Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。列式存储列式存储和行式存储相比有哪些优势呢?1.      可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。2.      压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使

2015-12-11 22:02:37 951

原创 JAVA GC调优零碎记录

是否需要进行GC调优决定是否进行Java GC调优,前提是主要看新生代的Minor GC和老年代的FULL GC 的GC频率和每次GC停顿的时间对于业务来说是否可接受,一般满足以下条件,可不用考虑GC调优(仅参考,具体还要看业务)1      MinorGC执行的很快(小于50ms)2      MinorGC执行的并不频繁(大概10秒一次)3      FullGC执行的很快

2015-12-10 20:24:24 699

原创 java实现lpad函数

public static String lpad(String str,int num,String pad){ String n_str=str; if(str==null) n_str= " "; for(int i=str.length();i <num;i++){ n_str=pad+n_str; } return n

2015-12-03 15:29:27 5976

原创 java正则解析url获取域

String host=""; try { host = new URL("http://www.mysite.cn/va3.html").getHost().toLowerCase(); } catch (MalformedURLException e) { // TODO Auto-generated catch block e.printStackTrace

2015-12-03 15:26:53 1603

原创 hive UDAF行列转换

目标实现1 a1 b2 a2 c转换为1 a,b2 a,cpackage com.hive.udf;//用法 select a,concat1(b,',') from concat_test group by a;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoop.hive.

2015-12-03 15:22:15 856

原创 hive udf使用间隔

计算用户使用app间隔,预先排重排好序得到 cookie 日期 当前日期,倒排序后作为参数传入。里面逻辑根据具体需求再调整。package com.hive.udf;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.ut

2015-12-03 15:17:13 737

原创 hive udf获取当前月最后一天

package com.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.net.URLDecoder;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import ja

2015-12-03 15:07:18 9471

原创 hive udf urldecode

package com.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.net.URLDecoder;public class UDFDecoderUrl extends UDF { private String url = null; private int times = 2;

2015-12-03 15:04:12 6070

原创 github使用记录

cd test进入到该托管项目的根目录输入git add .    将改动的地方添加到版本管理器输入git  commit -m "changes log"  提交到本地的版本控制库里,引号里面是你对本次提交的说明信息。最后输入git push -u origin master  将你本地的仓库提交到你的github账号里,此时会要求你输入你

2015-12-03 15:01:13 463

原创 impala初期使用零碎记录

搭建impala搭建参考cdh官方文档,有详细步骤,其中copy hdfs-site.xml、core-site.xml、hive-site.xml至/etc/impala/conf后注意参数dfs.client.read.shortcircuit只允许在/etc/impala/conf里core-site.xml hdfs-site.xml里配置,不在/etc/hadoop里配置并且

2015-12-03 14:48:08 2640

oozie使用整理

此文档主要对oozie的使用方法,基本内容做了一次介绍。

2018-09-21

spark优化实践小记

此文档主要对日常使用spark过程中可能遇到的一些性能优化问题做了一次整理总结

2018-09-21

Percolator分布式事务

Percolator分布式事务介绍,基于BigTable的分布式事务实现

2018-09-21

处理后的ip库

ipku文件为对纯真ip库进行国家,省,市,区县拆分,学校网吧不规范数据处理后的可用文件 ipdata为原始纯真ip库 xuexiao.csv为手工整理的学校网吧对应的地区

2015-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除