自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 hive表关联结果异常问题

sql:select a.order_code,b.order_idfrom (select order_codefrom ods.ods_lsh_oms_order_head where dt = '2018-08-05'group by order_code) ajoin (select order_idfrom default.mds_lsh_trade_ord...

2018-08-10 16:46:12 1976

原创 hive--UDAF实例

问题:从日志表(uid,登录日期),求每个uid连续登录的最长天数 解决思路:自定义UDAF函数,将问题转换成求最长连续日期的问题package com.zjs.udaf;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java...

2018-05-02 17:59:11 1508

原创 用python的pexpect模块,实现远程免密登录

说明当我们需要用脚本实现,远程登录或者远程操作的时候,都要去解决如何自动输入密码的问题,一般来说有3种实现方式: 1).配置公钥私钥 2).使用shell下的命令,expect 3).使用python的pexpect模块下面介绍的代码,是使用python的pexpect模块实现的:代码import osimport sysimport pe

2018-01-16 16:39:43 2325

原创 postgresql查看数据库,表,索引,表空间以及大小

查看数据库playboy=> \l //\加上字母l,相当于mysql的,mysql> show databases; List of databases Name | Owner | Encoding -----------+----------+---------- playboy | postg

2017-10-31 11:58:58 2269

原创 udf--根据开始日期和结束日期获取日期范围数组

代码在处理一些业务场景下的数据时,我们需要按照日期范围将日期补全,来实现某些业务场景下的需求。 我们需要的是,传入开始时间和结束时间,返回一个日期数组。hive原生函数里没有这种功能。所以我们需要自己来编写udf来实现。代码如下package com.zjs.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.text.ParseEx

2017-09-25 16:33:08 1043

原创 java ArrayList 转 string、string 转 ArrayList

string 转 ArrayList先将字符串按照某个字符切割,转为string数组然后用Arrays的asList方法,将数组转为Listpublic class test1 { public static void main(String[] args) { //string 转 ArrayList String str1 = "a,b,c";

2017-09-22 17:01:58 19771 2

原创 udf--获取json字符串中所有的key

hive自带函数get_json_object(…)与json_tuple(…)都是只能获取json字符串中的value值,不能返回key相关的信息。以下的udf实现的是,获取json字符串中所有的keyspackage com.zjs.udf;import net.sf.json.JSONObject;import org.apache.hadoop.hive.ql.exec.UDF;impor

2017-09-18 15:36:01 6370

原创 hive启动报错解决Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

报错内容如下,提示连接不到元数据库[root@bigdata conf]# hivewhich: no hbase in (/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/bigdata/java/bin:/bigdata/hadoop-2.6.4/bin:/bigdata/hadoop-2.6.4/sbin:/bigda

2017-09-13 17:53:18 3765

转载 线性代数基础知识

目录(?)[-]线性代数知识图谱行列式1 定义2 二阶行列式3 三阶行列式4 n阶行列式41 计算排列的逆序数42 计算n阶行列式43 简化计算总结44 行列式的3种表示方法5 行列式的性质6 计算行列式的方法8 行列式按行列展开矩阵1 矩阵的定义11 矩阵与行列式的区别2 特殊矩阵3 矩阵与线性变换4 矩阵的运算41 矩阵的加法42 数乘矩阵43 矩阵与矩阵相乘44 矩阵的转置45 方阵的行列式4

2017-08-14 11:25:48 2271

转载 Numpy、Pandas和Matplotlib包基础知识

一 Python常用扩展包二 Numpy科学计算包三 Pandas数据分析包四 Matplotlib画图包

2017-08-10 15:13:52 1220

原创 利用python将execl的数据导入hive

思路: 利用xlrd读取execl的数据,然后load到hive表中# -*- coding: utf-8 -*-import sysimport osfrom imp import reloadimport xlrdfrom pypinyin import lazy_pinyinimport timereload(sys)sys.setdefaultencoding('utf8'

2017-08-07 13:24:25 2075

原创 Hadoop之mapreduce

为什么要用使用mapreduce1、海量数据在单机上处理因为硬件资源限制,无法胜任 2、而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度 3、引入mapreduce框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理 4、一些复杂的逻辑使用hive实现起来很麻烦,即使用hive实现了,之后需求变更,改起来也会很麻烦mapre

2017-08-06 15:33:01 316

原创 udf--获取系统当前时间

获取系统当前时间:package com.zjs.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.text.SimpleDateFormat;import java.util.Date;/** * Created by Administrator on 2017/8/2. */public class now extend

2017-08-02 11:30:48 1430

原创 mapreduce maven文件

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache

2017-08-02 10:34:04 667

原创 mapreduce的缓存(addCacheFile)使用

1.在main()方法中添加缓存路径job.addCacheFile(new URI(args[2]));job.addCacheFile(new URI(args[3]));2.在map或者reduce的setup方法中处理缓存文件FileReader in = null;BufferedReader reader = null;HashMap<String, String> n_map =

2017-07-31 16:15:12 6448

原创 shell日循环脚本

用于执行一段时间范围的shell脚本: 执行方式: 脚本名 开始时间 结束时间1. #!/bin/sh 2. startdate=`date -d "$1" +%Y-%m-%d` 3. enddate=`date -d "$2" +%Y-%m-%d` 4. 5. while [[ $startdate < $enddate ]] 6. do 7. echo "

2017-07-31 15:57:14 352

原创 mapreduce程序日志打印配置

1.在maven依赖里添加log4j<dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version></dependency>2.配置 log4j.properties 文件(在Src->resources 中新建 log4j.properties)log4j.appende

2017-07-31 15:42:07 2587

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除