- 博客(4)
- 资源 (1)
- 收藏
- 关注
转载 java urldecode笔记
package com.util;import java.io.UnsupportedEncodingException;/** * url转码、解码 * * @author zhuan * @date 2015-3-17 下午04:09:35 */public class UrlUtil { private final static Strin
2017-06-14 14:25:07 1224
原创 hive 换行符特殊字符规避
在研究hive的时候遇到一些问题,在oracle表中查询很正常,结果导入到hive中就很不理想。究其原因其实是因为hive是解析文本文件导致无法处理带分隔符或者回车符或者特殊字符,转义字符等等问题。因为oracle在存储数据的时候有自己的一套二进制流写入方法,对于特殊字符基本都支持。所以在这里我研究了采用sqoop和hive来兼容这种方法:第一步: 改造sqoop文件sqoop
2017-06-14 14:15:45 9141
原创 spark清洗离线数据
最近花了半个月时间研究了一哈scala 感觉可以做的东西还是蛮多了。目前工作清洗40多G的数据很费劲(采用oracle做很费事),所有研究了spark来清洗离线数据。废话不多说开始程序设计:首先我想到的是输入 这里采用HDFS文件。假设我们将oracle的数据采用json格式的形式并且采用urldecode方法转换文本(因为一些特殊字符常常会导致我们的json文件读取异常,所有我这里采用转
2017-06-14 09:33:06 9678
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人