Samaritan_H-CSDN博客

原创关于crontab 不能调用Hadoop相关的命令的问题

先说结果：环境变量导致。处理方式： source /etc/profile source ~/.bash_profile 在脚本的开头引入环境变量。事件：crontab 调用shell 脚本，脚本中包含，hive -e ,hive -f 等命令，本地执行shell脚本测试无问题，但是crontab 调度任务不执行。...

2018-04-02 09:40:39 1869 1

原创 JAVA中常用的几种设计模式--单例

前段时间面试的时候被问到了设计模式，结果想想只了解单例、工厂…囧，所以整理下，温故而知新。设计模式：简单说就是前人留下的一些经验，有助于提高代码的复用率，增加可读性；单例模式应该是使用比较多的模式之一，很多人都是一知半解，其中也包括我，哈哈单例模式定义：确保一个类只有一个实例，并且提供一个全局访问点；优点：该类的实例只有一个；全局共享；缩短对象的创建时间；...

2018-03-13 16:29:38 416

原创 spark中的参数设置

之前一直在使用spark，对于spark的参数设置了解过部分。最近当被同事问起时，感觉自己又有点模糊。好记性不如烂笔头。spark-submit的参数设置spark的运行模式有多种，这边就yarn提交的任务进行说明：正常用到的参数如下：/bin/spark-submit –master yarn-cluster –num-executors 100 ...

2018-03-09 18:16:59 7420

原创 hive中的高阶函数-窗口函数

窗口函数的使用，配合聚合函数使用，能够更加灵活的规约表的格式，大大减少工作量说在前面窗口函数，执行顺序是最后执行仅仅是在order by之前执行。over函数子句的使用准备的测试数据jackma,2018-01-01,10tonyma,2018-01-02,15jackma,2018-02-03,23tonyma,2018-01-04,29jackma,2018-01

2018-01-19 15:56:11 3779

原创 hive中的桶表，以及高效的join方式

hive中的join策略大概可以分为三种前面2种的话都是经常会用到，说下第三种桶 join桶（SMB）物理上，每个桶就是表(或分区）目录里的一个文件。 smb的设计是为了解决大表和大表之间的join的。简单的说下她的思想：大表化成小表，map side join 解决。经典的分而治之的思想。对一个表或者一个分区，可以将其划分为更细的数据块，桶。在hive中，分桶的方

2018-01-18 20:15:57 7932 4

原创 hive中的几种排序的区别

整理hive中遇到的几种排序的函数特性、区别记上一笔hive的排序 hive的排序有四种： order by ，sort by，distribute by，cluster by order byorder by 是最常用的一种排序，全局排序，所有的数据会在一个reducer上面进行排序，所以一般使用这个函数进行排序的时候速度较慢。需要指出来的是，在strict模

2018-01-17 20:22:43 1613 1

原创我和spark有个约会（2）-spark 的shuffle过程

shuffle被称为是神奇发生的地方，分为三个部分了解下shuffle的过程：概览，spark write，spark read为什么需要 shuffle write按照stage划分后的rdd：详细的任务执行的流程：从图上可以看出，有依赖的stage之间的数据互通，是通过上个stage的shufflemaptask write 之后，将源数据同

2018-01-10 15:34:52 559

原创我和spark有个约会（1）-Spark中的stage的划分原理

我和spark有个约会（1）了解DAGScheduler 阶段对stage的划分原理spark宽窄依赖narrow dependencies:child rdd只依赖于parentrdd[s]的部分固定的partitionwide dependencies:child rdd 每个partition 都依赖于parent rdd[s] 的全部partition（也称之为shu

2018-01-09 15:31:52 1053

原创 Python免秘钥ssh远程登录执行命令and本地执行shell命令

python远程执行 python paramiko 模块的应用

2018-01-04 11:14:01 3557

原创 azkaban的搭建

ERRLIST1.RELEASE3.38.0d的版本是有点问题的，请下载最新的master上的代码进行编译 2.若/azkaban-exec-server/plugins/jobtypes/下commonprivate.proterties文件未配置，则会报以下错误：未配置：execute.as.user=false2.某些报错点我azkaban 的组成部分mysql数据库azkab

2018-01-02 17:30:29 660

原创 Mysql的分区表

因hive数据在20180101 用sqoop同步到mysql的时候出错，最终查找原因发现是因为mysql中对应的表的分区没有建导致的，顺带研究下mysql的分区表mysql的分区表的概述mysql中分区表的定义：将一个表或索引分解为多个更小、更可管理的部分，从逻辑上讲，只有一个表或者索引，但是物理上这个表或者索引可能由数十个物理分区组成数据库表的分区一般有两种：水平分区：指将同一表中不

2018-01-02 17:22:52 3147

原创 python 连接mysql ---PyMysql

python连接mysql的工具 python 连接mysql的工具有很多，mysqldb，oursql等，从安装的便利和使用上选择了pymysql安装pip install PyMysql使用#!/usr/bin/python3# coding=utf-8# coding=utf-8# coding=utf-8# coding=utf-8# coding=utf-8# coding=utf

2017-12-26 11:44:15 605

原创 python http请求工具Requests

python http请求利器Requests 只涉及一些常用的方法，一些高级特性查看尾部链接安装pip install requests发送请求#r 是response对象 r = requests.get('https://github.com/timeline.json')#get r = requests.post("http://httpbin.org/post") #post

2017-12-25 18:35:18 1784

原创 python很好用的时间处理包 Arrow

py标准包datetime 中的时间处理，方法较繁多，不是很好记忆，所以在使用的便利程度上难免会打个折，然后发现一款很好用的python的时间处理包Arrow git上的项目地址简单的介绍，详细的使用教程参照git上的doc下载导包pip install arrow获取当前时间，格式化时间#获取当前时间 utc时间 local时间 #t是一个arrow的时间对象，之后的日期格式化，时间的

2017-12-25 16:53:42 3306

原创上古神器VIM升级8.0--linux

VIM 8.0 YouCompleteMe

2017-12-20 18:29:16 978

原创 linux python2升级到python3(源码编译安装)

系统自带的py2升级成py3教程需要root权限Step1#下载wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgzStep2#解压到项目目录下 ./configure #如果报错configure: error: no acceptable C compiler found in $PATH#需要安装/升级

2017-12-20 10:26:20 706

Samaritan_H的博客