- 博客(17)
- 收藏
- 关注
原创 hive表关联结果异常问题
sql:select a.order_code,b.order_idfrom (select order_codefrom ods.ods_lsh_oms_order_head where dt = '2018-08-05'group by order_code) ajoin (select order_idfrom default.mds_lsh_trade_ord...
2018-08-10 16:46:12
1976
原创 hive--UDAF实例
问题:从日志表(uid,登录日期),求每个uid连续登录的最长天数 解决思路:自定义UDAF函数,将问题转换成求最长连续日期的问题package com.zjs.udaf;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java...
2018-05-02 17:59:11
1508
原创 用python的pexpect模块,实现远程免密登录
说明当我们需要用脚本实现,远程登录或者远程操作的时候,都要去解决如何自动输入密码的问题,一般来说有3种实现方式: 1).配置公钥私钥 2).使用shell下的命令,expect 3).使用python的pexpect模块下面介绍的代码,是使用python的pexpect模块实现的:代码import osimport sysimport pe
2018-01-16 16:39:43
2325
原创 postgresql查看数据库,表,索引,表空间以及大小
查看数据库playboy=> \l //\加上字母l,相当于mysql的,mysql> show databases; List of databases Name | Owner | Encoding -----------+----------+---------- playboy | postg
2017-10-31 11:58:58
2269
原创 udf--根据开始日期和结束日期获取日期范围数组
代码在处理一些业务场景下的数据时,我们需要按照日期范围将日期补全,来实现某些业务场景下的需求。 我们需要的是,传入开始时间和结束时间,返回一个日期数组。hive原生函数里没有这种功能。所以我们需要自己来编写udf来实现。代码如下package com.zjs.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.text.ParseEx
2017-09-25 16:33:08
1043
原创 java ArrayList 转 string、string 转 ArrayList
string 转 ArrayList先将字符串按照某个字符切割,转为string数组然后用Arrays的asList方法,将数组转为Listpublic class test1 { public static void main(String[] args) { //string 转 ArrayList String str1 = "a,b,c";
2017-09-22 17:01:58
19771
2
原创 udf--获取json字符串中所有的key
hive自带函数get_json_object(…)与json_tuple(…)都是只能获取json字符串中的value值,不能返回key相关的信息。以下的udf实现的是,获取json字符串中所有的keyspackage com.zjs.udf;import net.sf.json.JSONObject;import org.apache.hadoop.hive.ql.exec.UDF;impor
2017-09-18 15:36:01
6370
原创 hive启动报错解决Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
报错内容如下,提示连接不到元数据库[root@bigdata conf]# hivewhich: no hbase in (/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/bigdata/java/bin:/bigdata/hadoop-2.6.4/bin:/bigdata/hadoop-2.6.4/sbin:/bigda
2017-09-13 17:53:18
3765
转载 线性代数基础知识
目录(?)[-]线性代数知识图谱行列式1 定义2 二阶行列式3 三阶行列式4 n阶行列式41 计算排列的逆序数42 计算n阶行列式43 简化计算总结44 行列式的3种表示方法5 行列式的性质6 计算行列式的方法8 行列式按行列展开矩阵1 矩阵的定义11 矩阵与行列式的区别2 特殊矩阵3 矩阵与线性变换4 矩阵的运算41 矩阵的加法42 数乘矩阵43 矩阵与矩阵相乘44 矩阵的转置45 方阵的行列式4
2017-08-14 11:25:48
2271
转载 Numpy、Pandas和Matplotlib包基础知识
一 Python常用扩展包二 Numpy科学计算包三 Pandas数据分析包四 Matplotlib画图包
2017-08-10 15:13:52
1220
原创 利用python将execl的数据导入hive
思路: 利用xlrd读取execl的数据,然后load到hive表中# -*- coding: utf-8 -*-import sysimport osfrom imp import reloadimport xlrdfrom pypinyin import lazy_pinyinimport timereload(sys)sys.setdefaultencoding('utf8'
2017-08-07 13:24:25
2075
原创 Hadoop之mapreduce
为什么要用使用mapreduce1、海量数据在单机上处理因为硬件资源限制,无法胜任 2、而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度 3、引入mapreduce框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理 4、一些复杂的逻辑使用hive实现起来很麻烦,即使用hive实现了,之后需求变更,改起来也会很麻烦mapre
2017-08-06 15:33:01
316
原创 udf--获取系统当前时间
获取系统当前时间:package com.zjs.udf;import org.apache.hadoop.hive.ql.exec.UDF;import java.text.SimpleDateFormat;import java.util.Date;/** * Created by Administrator on 2017/8/2. */public class now extend
2017-08-02 11:30:48
1430
原创 mapreduce maven文件
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache
2017-08-02 10:34:04
667
原创 mapreduce的缓存(addCacheFile)使用
1.在main()方法中添加缓存路径job.addCacheFile(new URI(args[2]));job.addCacheFile(new URI(args[3]));2.在map或者reduce的setup方法中处理缓存文件FileReader in = null;BufferedReader reader = null;HashMap<String, String> n_map =
2017-07-31 16:15:12
6448
原创 shell日循环脚本
用于执行一段时间范围的shell脚本: 执行方式: 脚本名 开始时间 结束时间1. #!/bin/sh 2. startdate=`date -d "$1" +%Y-%m-%d` 3. enddate=`date -d "$2" +%Y-%m-%d` 4. 5. while [[ $startdate < $enddate ]] 6. do 7. echo "
2017-07-31 15:57:14
352
原创 mapreduce程序日志打印配置
1.在maven依赖里添加log4j<dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version></dependency>2.配置 log4j.properties 文件(在Src->resources 中新建 log4j.properties)log4j.appende
2017-07-31 15:42:07
2587
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人