自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SunWuKong_Hadoop的博客

每天都是战斗,像狼一样战斗。 找准定位,有魄力,有胆识,果断。 岂因环境易而易……

  • 博客(23)
  • 收藏
  • 关注

转载 一次 Spark SQL 性能提升10倍的经历

1. 遇到了啥问题是酱紫的,简单来说:并发执行 spark job 的时候,并发的提速很不明显。嗯,且听我慢慢道来,啰嗦点说,类似于我们内部有一个系统给分析师用,他们写一些 sql,在我们的 spark cluster 上跑。随着分析师越来越多,sql job 也越来越多,等待运行的时间也越来越长,我们就在想怎么把 sql 运行的时间加快一点。我们的整个架构是 spark 1.6.1 ...

2018-11-30 14:30:44 903

转载 如何每日增量加载数据到Hive分区表

加载数据数据加载到Hive分区表(两个分区,日期(20181129 )和小时(10))中每日加载前一天的日志文件数据到表db_track.track_log1. 数据存储数据日志文件,放入某个目录下,每天日志文件放入同一个目录eg: 20181129 - 目录名称日志文件数据,每个小时生成一个文件,一天总共有二十四个文件eg: 20181129 202. shell脚本编...

2018-11-29 16:29:19 819

原创 postgresql集群报错解决:SELECT pg_catalog.pg_try_advisory_xact_lock_shared(65535, 65535)

10月25号之后只能对evap数据库进行select操作,且运行报错如下:org.postgresql.util.PSQLException: ERROR: pooler: failed to create connections in parallel mode for thread 140705041217280 在位置:SQL statement "EXECUTE DIRECT ...

2018-11-28 15:52:30 3089

转载 sqoop2用法介绍

sqoop通俗讲就是支持将mysql,oracle等关系型数据库数据导入到hdfs中的工具。用的是mapreduce这种计算模式,只要在一台服务器上安装,整个服务器集群都能开启服务。例子1:项目需求:mysql——>hdfs ——>hive       其中mysql数据到hdfs就是由sqoop完成,hdfs数据导入到hive则是通过在hive中建表,通过load....overwr...

2018-11-27 11:52:48 1162

转载 python3中reload(sys)该怎么写

在Python2.x中由于str和byte之间没有明显区别,经常要依赖于defaultencoding来做转换。#python2写法:import sysreload(sys)sys.setdefaultencoding(‘utf-8’)python3中这个需要已经不存在了,这么做也不会什么实际意义。在python3有了明确的str和byte类型区别,从一种类型转换成另...

2018-11-27 11:37:32 5154

转载 Sqoop最佳实践

一、什么是SqoopSqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错率,而且相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况。在特定场景下,抽取过程会有很大的性能提升...

2018-11-27 11:06:15 361

原创 在Oracle、MySQL中执行sql脚本生成hive建表语句

业务需求:在没有sqoop的基础上,将oracle归集库的数据迁移至hive作为ods数据源,mysql数据库中的指标表迁移至hive作为dw层。在MySQL中生成hive建表语句:#!/usr/bin/python# -*- coding: utf-8 -*-table_name = ['zzlq','z_zzjgdw_base_info','z_zzjg_base_inf...

2018-11-27 10:50:12 1061

转载 Python爬虫实践:获取石家庄空气质量历史数据(13年至今)

from urllib.request import urlopenfrom bs4 import BeautifulSoupimport reimport numpyimport csvimport timedef getdatawithtablehead(url): """ 该函数用于获取带表头的数据 """ html = urlopen(url) b...

2018-11-23 14:44:54 2550 27

转载 numpy基础属性方法随机整理(四)---数组组合和分割 vstack /hstack / row_stack / column_stack / dstack /v[sd]split

数组组合类型:1. 垂直组合 np.vstack((up,down)) up, down 表示数据在上还是在下,类似于堆栈 2. 水平组合 np.hstack((left, right)) left right 表示数据在左还是在右 3. 行组合(对象:一维数组) np.row_stack((up,down)) 4. 列组合(对象:一维数组) np.column_stack((l...

2018-11-23 11:38:16 308

转载 Linux-centos下安装hue可视化以及与hdfs、hive、hbase和mysql的集成

1. Hue概述及版本下载1)概述    Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。2)...

2018-11-22 18:22:22 187

原创 车牌号校验正则表达式

一、车牌号校验规则1.常规车牌号:仅允许以汉字开头,后面可录入六个字符,由大写英文字母和阿拉伯数字组成。如:粤B12345。2.武警车牌:允许前两位为大写英文字母,后面可录入五个或六个字符,由大写英文字母和阿拉伯数字组成,其中第三位可录汉字也可录大写英文字母及阿拉伯数字,第三位也可空,如:WJ警00081、WJ京1234J、WJ1234X。3.最后一个为汉字的车牌:允许以汉字开头,后面...

2018-11-21 10:04:55 21173

转载 yarn性能调优

一、相关配置情况关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念,现在可以先把它理解为运行map/reduce task的容器,后面有详细介绍。1.1 RM的内存资源配置, 配置的是资源调度相关RM1:yarn.sche...

2018-11-19 18:09:52 607

转载 kinit 某个账户,提示 Clients credentials have been revoked

人机账户输入错误密码次数过多账号被锁的解决方法1、先判断是否存在账户被锁。输入kinit 用户名。如果包含如下提示:kinit: Clients credentials have been revoked while getting initial credentials 可能是账户被锁2、登陆kadmin后台管理控制台kadmin -p kadmin/admin 默认密码Ad...

2018-11-10 16:04:05 5688

转载 FusionInsight安全组件FAQ

FusionInsight安全组件FAQ这里汇总了FusionInsight安全组件相关的问题,包含kerberos,ldapserver,cas,spring安全框架相关问题分析1       Ldapserver相关问题1.1      安装oms的时候,提示失败,信息:ERROR:Failed to install Ldap.解决办法:check日志。/var/log/Big...

2018-11-10 14:59:56 1486

原创 查看postgresql数据库用户

SELECT u.usename AS "User name", u.usesysid AS "User ID", CASE WHEN u.usesuper AND u.usecreatedb THEN CAST('superuser, createdatabase' AS pg_catalog.text) WHEN u.usesuper THEN CAST('super...

2018-11-10 10:18:07 2996

转载 shell中spark-sql语句调试、执行方式

1.命令方式执行sparksql查询SQL="use mydatatable;;select count(1) from tab_videousr_onlne where p_regiion=101 and p_date='2017-04-05' and p_hour=21;"/home/mr/spark/bin/beeline -u jdbc:hive2://localhost:18...

2018-11-09 16:02:02 3087

转载 在Yarn上运行spark-shell和spark-sql命令行

spark-shell On Yarn如果你已经有一个正常运行的Hadoop Yarn环境,那么只需要下载相应版本的Spark,解压之后做为Spark客户端即可。需要配置Yarn的配置文件目录,export HADOOP_CONF_DIR=/etc/hadoop/conf   这个可以配置在spark-env.sh中。运行命令:cd $SPARK_HOME/bin./spark...

2018-11-09 11:19:14 1073

转载 Hive日期函数总结

--1.时间戳函数--日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数select unix_timestamp(); --获得当前时区的UNIX时间戳select unix_timestamp('2017-09-15 14:23:00'); select unix_timestamp('2017-09-15 14:23:00','yyyy-MM-dd HH...

2018-11-08 18:26:12 480

原创 Hive中三张表数据合并成一行,并插入另一张表

知识点:时间戳转化,当前时间,左连接,查询的字段相同可以直接插入另一张表 insert into lqioc_ioc_dw.kkjcselect a.*,b.CLL,e.JZT from (select FROM_UNIXTIME(UNIX_TIMESTAMP(),'yyyy') as YEAR_ID,'鹿泉' as AREA_NAME,'130185000000' as AREA_...

2018-11-08 17:58:44 4703 1

原创 sqluldr2 报错ora-24345: A Truncation or null fetch error occurred

source /etc/profile;source /root/.bash_profile;unset NLS_LANG;sqluldr2 user=sjgj/sjgj@10.254.4.196:1521/client query="select ZJ as ZJ,TIME as TIME,DHHM as DHHM,XM as XM,LDNR as LDNR,BLLC as B...

2018-11-07 17:57:38 3496 4

转载 Python3(phone)模块获取手机号归属地、区号、运营商等

from phone import Phoneimport xlrdimport xlwtdef Get_Excel_data(): file = 'Tel.xlsx' #电话号码存储的excle表 re1 = xlrd.open_workbook(file) outwb = xlwt.Workbook() #创建工作簿 # print(type(...

2018-11-07 17:47:56 2053

转载 kerberos无密码登录

用到的命令如下:1、ktutil2、add_entry -password -p hadoop/admin@psy.com -k 3 -e aes256-cts-hmac-sha1-96解释:-k 指编号 -e指加密方式 -password 指使用密码的方式例子:add_entry -password -p host/admin@psy.com -k 1 -e aes256-cts-...

2018-11-07 16:01:36 3412

原创 在Oracle、MySQL中执行sql脚本生成hive建表语句

python3脚本:#mysqlfor i in range(len(table_name)): sql1 = """SELECT CONCAT('create table ','%s','(')UNION ALLSELECT CONCAT( COLUMN_NAME, ' ', CASE WHEN DATA...

2018-11-01 13:36:19 566

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除