沙漠的飞鱼-CSDN博客

原创 hive表关联结果异常问题

sql：select a.order_code,b.order_idfrom (select order_codefrom ods.ods_lsh_oms_order_head where dt = '2018-08-05'group by order_code) ajoin (select order_idfrom default.mds_lsh_trade_ord...

2018-08-10 16:46:12 1976

原创 hive--UDAF实例

问题：从日志表(uid，登录日期)，求每个uid连续登录的最长天数解决思路：自定义UDAF函数，将问题转换成求最长连续日期的问题package com.zjs.udaf;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java...

2018-05-02 17:59:11 1508

原创用python的pexpect模块，实现远程免密登录

说明当我们需要用脚本实现，远程登录或者远程操作的时候，都要去解决如何自动输入密码的问题，一般来说有3种实现方式： 1).配置公钥私钥 2).使用shell下的命令，expect 3).使用python的pexpect模块下面介绍的代码，是使用python的pexpect模块实现的：代码import osimport sysimport pe

2018-01-16 16:39:43 2325

原创 postgresql查看数据库,表,索引,表空间以及大小

查看数据库playboy=> \l //\加上字母l,相当于mysql的，mysql> show databases; List of databases Name | Owner | Encoding -----------+----------+---------- playboy | postg

2017-10-31 11:58:58 2269

原创 udf--根据开始日期和结束日期获取日期范围数组

代码在处理一些业务场景下的数据时，我们需要按照日期范围将日期补全，来实现某些业务场景下的需求。我们需要的是，传入开始时间和结束时间，返回一个日期数组。hive原生函数里没有这种功能。所以我们需要自己来编写udf来实现。代码如下package com.zjs.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.text.ParseEx

2017-09-25 16:33:08 1043

原创 java ArrayList 转 string、string 转 ArrayList

string 转 ArrayList先将字符串按照某个字符切割，转为string数组然后用Arrays的asList方法，将数组转为Listpublic class test1 { public static void main(String[] args) { //string 转 ArrayList String str1 = "a,b,c";

2017-09-22 17:01:58 19771 2

hive自带函数get_json_object（…）与json_tuple(…)都是只能获取json字符串中的value值，不能返回key相关的信息。以下的udf实现的是，获取json字符串中所有的keyspackage com.zjs.udf;import net.sf.json.JSONObject;import org.apache.hadoop.hive.ql.exec.UDF;impor

2017-09-18 15:36:01 6370

原创 hive启动报错解决Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

报错内容如下，提示连接不到元数据库[root@bigdata conf]# hivewhich: no hbase in (/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/bigdata/java/bin:/bigdata/hadoop-2.6.4/bin:/bigdata/hadoop-2.6.4/sbin:/bigda

2017-09-13 17:53:18 3765

转载线性代数基础知识

目录(?)[-]线性代数知识图谱行列式1 定义2 二阶行列式3 三阶行列式4 n阶行列式41 计算排列的逆序数42 计算n阶行列式43 简化计算总结44 行列式的3种表示方法5 行列式的性质6 计算行列式的方法8 行列式按行列展开矩阵1 矩阵的定义11 矩阵与行列式的区别2 特殊矩阵3 矩阵与线性变换4 矩阵的运算41 矩阵的加法42 数乘矩阵43 矩阵与矩阵相乘44 矩阵的转置45 方阵的行列式4

2017-08-14 11:25:48 2271

转载 Numpy、Pandas和Matplotlib包基础知识

一 Python常用扩展包二 Numpy科学计算包三 Pandas数据分析包四 Matplotlib画图包

2017-08-10 15:13:52 1220

原创利用python将execl的数据导入hive

思路：利用xlrd读取execl的数据，然后load到hive表中# -*- coding: utf-8 -*-import sysimport osfrom imp import reloadimport xlrdfrom pypinyin import lazy_pinyinimport timereload(sys)sys.setdefaultencoding('utf8'

2017-08-07 13:24:25 2075

原创 Hadoop之mapreduce

为什么要用使用mapreduce1、海量数据在单机上处理因为硬件资源限制，无法胜任 2、而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度 3、引入mapreduce框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发上，而将分布式计算中的复杂性交由框架来处理 4、一些复杂的逻辑使用hive实现起来很麻烦，即使用hive实现了，之后需求变更，改起来也会很麻烦mapre

2017-08-06 15:33:01 316

原创 udf--获取系统当前时间

获取系统当前时间：package com.zjs.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.text.SimpleDateFormat;import java.util.Date;/** * Created by Administrator on 2017/8/2. */public class now extend

2017-08-02 11:30:48 1430

原创 mapreduce maven文件

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache

2017-08-02 10:34:04 667

原创 mapreduce的缓存(addCacheFile)使用

1.在main()方法中添加缓存路径job.addCacheFile(new URI(args[2]));job.addCacheFile(new URI(args[3]));2.在map或者reduce的setup方法中处理缓存文件FileReader in = null;BufferedReader reader = null;HashMap<String, String> n_map =

2017-07-31 16:15:12 6448

原创 shell日循环脚本

用于执行一段时间范围的shell脚本：执行方式：脚本名开始时间结束时间1. #!/bin/sh 2. startdate=`date -d "$1" +%Y-%m-%d` 3. enddate=`date -d "$2" +%Y-%m-%d` 4. 5. while [[ $startdate < $enddate ]] 6. do 7. echo "

2017-07-31 15:57:14 352

原创 mapreduce程序日志打印配置

1.在maven依赖里添加log4j<dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version></dependency>2.配置 log4j.properties 文件（在Src->resources 中新建 log4j.properties）log4j.appende

2017-07-31 15:42:07 2587