使用Hive处理敏感字段

使用regexp_replace regexp_replace(address,"","") (1)匹配所有字符: select regexp_replace(address, '.*', '***') from table; (2)匹配指定字符: se...

2019-05-20 14:58:19

阅读数 1

评论数 0

hive表数据迁移(生产集群->测试集群)

由于需要在测试环境测试hive表逻辑,但是测试集群没有相关表及数据, 所以采用最简单的方式:通过hue从生产集群下载文件,然后通过hue上传到测试集群 但是。。 hive表是分区的而且每个分区下面都N多个小文件,于是编写shell脚本: #! /bin/bash mkdir -p ....

2019-05-17 11:28:37

阅读数 7

评论数 0

Java Api访问HDFS报错

Failed to connect to /192.168.1.1:50010 for block, add to deadNodes and continue. java.net.ConnectException: Connection timed out: no further informa...

2019-05-06 14:08:08

阅读数 10

评论数 0

什么是数据仓库(一)

数据仓库存在的意义: 数据仓库和数据库区别: 面向业务的数据库称作OLTP;面向分析的数据仓库称作OLAP 用到的技术: 集群的监控:CDH 数据质量的监控:DataX Flink ELK 数据模型:关注灵活、快速响应、及时反馈市场(互联网公司) ...

2019-04-08 21:23:52

阅读数 16

评论数 0

Java api访问集群(Kerberos认证不通过)

本地环境访问集群OK 生产环境却报错 查找日志信息,发现Kerberos认证的时候,域名解析出现问题?!! 登录生产环境ping 043节点,能ping通说明域名是能解析成IP地址的(有DNS服务器)蓝瘦香菇,明明报错是域名解析问题为什么能ping通呢? 于是把本地Java访问集群代码改成IP试一...

2019-04-08 18:57:11

阅读数 83

评论数 0

使用Hadoop的Archive处理小文件

某个hive外部表的文件: 归档: hadoop archive -archiveName libarchive.har -p /user/asmp/hive/asmp/tt_repair_deed_tmp2 -r 3 * /user/asmp/hive/asmp/test 报错: The r...

2019-04-04 15:55:58

阅读数 15

评论数 0

Hive窗口函数使用

平常使用 hive或 mysql主要用聚合函数 但对于某些偏分析的需求,group by可能很费力,子查询很多 这个时候就需要使用窗口分析函数了~ 比如:最近一次行驶里程 select max(ded.bill_date),ded.vin,ded.current_milemetre from db...

2019-03-27 17:46:11

阅读数 19

评论数 0

集群运行task数量总结

使用集群运行spark-sql计算 初始化大宽表 近20年所有数据! 1700个Tasks(计算10min + 写入30min) 计算两年数据量:130G 计算三年数据量:190G 平均每年数据量:60G+(6000万条) 提交资源申请: 每个executor申请内存为16G --execut...

2019-03-27 11:19:52

阅读数 18

评论数 0

集群运行task数量总结

使用集群运行spark-sql计算 初始化大宽表 近二十年所有数据! 1600个Tasks(计算10min + 写入26min) 计算两年数据量:130G 计算三年数据量:190G 平均每年数据量:60G+(2000万条) 提交资源申请: 每个executor申请内存为16G --execut...

2019-03-27 10:38:32

阅读数 19

评论数 0

硬盘 GPT转MBR格式

错误信息: Windows无法安装到这个磁盘选中的磁盘,选中的磁盘具有MBR分区表。 解决方案:按下Shift+F10 diskpart #进入磁盘管理软件 list disk #列出当前磁盘信息 select disk 0 #选中要更改的磁盘ID clean #清空数据 convert mbr...

2019-03-26 17:46:29

阅读数 12

评论数 0

使用sqoop从hive导入oracle报错

新建shell脚本 hive2oracle.sh #!/bin/bash sqoop export --connect jdbc:oracle:thin:@//10.10.10.10:1521/DB --username user --password 123456 --table DB.TT_...

2019-03-20 19:46:27

阅读数 26

评论数 0

Hue上执行hive的sql脚本

新建workflow 选择Actions里面的HiveServer2 Script拖拽即可 选择写好的脚本hive2hbase.sql use database; CREATE TEMPORARY TABLE test_dhb_lab as select * from dhb_tt_lab; I...

2019-03-19 09:25:38

阅读数 191

评论数 0

Hive表删除&清空数据

(一)删除内部表中数据(保留表结构) truncate table 表名; (二)删除外部表中数据(保留表结构) 由于外部表不能直接删除,所以用shell命令执行 #!/bin/bash temp=$(date +%Y-%m-%d) temp2=$(date -d "-1 d...

2019-03-18 12:22:04

阅读数 23

评论数 0

常用集群地址汇总

查看CM http://svldl042.csvw.com:7180/cmf/login 查看HUE http://svldl031.csvw.com:8889/filebrowser/ 查看spark history运行情况 http://svldl045.csvw.com:18089/ ...

2019-03-14 15:39:54

阅读数 21

评论数 0

spark数据开发业务流程总结

(一)接到新业务流程: (a)应用设计文档 (b)计算逻辑文档 根据这两个文档,整理业务流程 (二)接下来根据业务中伪代码,整理出hive-SQL (a)考虑命名规范 (b)考虑存储格式 (三)整理好SQL之后开始代码开发 (a)建表建字段(类型如何选择) (b)建模块写代码 (四)最后核对数据(...

2019-03-07 16:41:50

阅读数 72

评论数 0

集群小文件太多问题(spark-sql优化)

hive外部分区表,每个分区下有200个小文件 某张表有三个分区字段(partition_brand, partition_date, partition_rssc) 则生成小文件个数:2 * 26 * 8 * 200 = 83,200 这个表还算一般,如果按照年月日进行分区的话,小文件就太多了...

2019-02-22 17:50:26

阅读数 278

评论数 0

生产环境HDFS目录丢失问题

代码不规范,同事两行泪! 代码不备份,自己两行泪! 早上正常上班,打开集群:昨天的任务全部失败! 打开目录,发现少了conf文件夹,之后又发现analysis文件夹也莫名消失。 没有专门的运维人员进行集群管理和快照保存,作为开发我才发现Hue上删除数据竟然没有用户操作记录,数据找回无望,因为之前写...

2019-02-20 16:49:08

阅读数 23

评论数 0

DELL台式机重装系统(centos7改成window7)

业务需求自己搭建oracle测试服务器!!! (1)设置u盘启动 按下F12启动热键打开Boot Menu,选择USB Storage Device回车 如果没有USB选项,选择Setup进入BIOS,或者重启按F2进入BIOS; 切换到Boot,选择Secure Boot Control回车,...

2019-02-14 14:45:20

阅读数 552

评论数 0

上班第一天:查错过程

打开公司集群,隔三差五就有skaftersales_asmp任务报错 点进去一看原来是这个子任务出错 (1)定位到dws_sk_dealer_repair_count_day这张hive表 原因:没有前一天数据导致删除失败,也没有生成今天的数据 (2)继续查看这张表数据来自于dhi_sk_re...

2019-02-12 16:29:30

阅读数 28

评论数 0

生产环境Tomcat服务器访问HDFS报错

下载Tomcat日志文件 runtime_info.log查看信息: [WARN ][19-01-11 18:07:19][http-nio-8080-exec-3][*]Exception encountered while connecting to the server : java.lan...

2019-01-14 11:39:35

阅读数 55

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭