Hadoop专题
文章平均质量分 55
水墨风漾
好人
展开
-
元数据得到当前分区表最大分区
背景:公司数据没跑完,但又得出报表,只能取最近的!需要或取当前分区表最大的分区。这里使用的是利用元数据方式进行获得当前分区表最大分区的方式写一个工具shell 脚本#!/bin/bashTABLE_NAME=$1set -ev_date=date -d yesterday +"%Y-%m-%d"if [ -z ${TABLE_NAME} ]thenecho ${v_date}...原创 2019-02-19 10:42:27 · 786 阅读 · 0 评论 -
java百度api输入经纬度解析地址
package com.bigdata.std;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.io.OutputStreamWriter;import java.net....原创 2018-12-10 09:45:59 · 330 阅读 · 0 评论 -
正则表达式中 find()和match()区别
@Testpublic void test10(){ String str="a中A3"; String reg="[a-zA-Z]"; Pattern compile = Pattern.compile(reg); Matcher matcher = compile.matcher(str); if(matcher.matches()){ ...原创 2018-12-06 10:40:00 · 6906 阅读 · 0 评论 -
在hive或impala中编写udf清洗数据时,常用的正则
在做项目的过程中,使用正则表达式来匹配一段文本中的特定种类字符,是比较常用的一种方式,下面是对常用的正则匹配做了一个归纳整理。我的案例下载链接:https://download.csdn.net/download/shuimofengyang/108331871、匹配中文:[\u4e00-\u9fa5]2、英文字母:[a-zA-Z]3、数字:[0-9]4、匹配中文,英文字母和数字及下...转载 2018-12-06 09:41:54 · 4205 阅读 · 0 评论 -
数仓流程的报表设计及应用
1.背景:先用sqoop全量抽取数据,再增量抽取,整合到全量表中,作为ods层;进行业务处理到作为dwd层,结果到dm层;再sqoop将结果抽到mysql。ods层:#!/bin/bash# ********************************************************************************# 程序名称: online...原创 2018-11-26 10:11:00 · 791 阅读 · 0 评论 -
调http 接口的小demo
背景:取另外分公司的数据!以前是有那边的同事每天发数据包过来。现在是提供接口,获取众多类型的下载地址,自己去下。我来接手做这个事。语言java ,参数json格式 ,返回也是json格式。解析取到url生成txt文件。1.依赖: <dependency> <groupId>org.json</groupId> <artifactI...原创 2018-11-16 12:54:37 · 955 阅读 · 0 评论 -
hadoop优化
Hadoop优化1 MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1.计算机性能 CPU、内存、磁盘健康、网络2.I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。2 MapReduce优化方法MapRe...转载 2018-06-16 14:49:54 · 240 阅读 · 0 评论 -
win10中压缩缺少zlib1.dll文件
一 cmd二 hadoop checknative -a三 加入 zlib1.dll文件到hadoop文件的bin目录中原创 2018-06-16 09:13:06 · 2392 阅读 · 0 评论 -
数据挖掘:大数据与统计学的交叉
近期,国外黑客利用俄罗斯影子经纪人曝光的美国国家安全局(NSA)若干利用smb协议(445端口) 漏洞而制作的勒索软件,席卷全球并把国内许多大学的大四毕业生论文给加密了。该勒索软件实际是一种蠕虫病毒,它首先利用邮件附件等方式感染一台主机,然后它会自动扫描局域网内开放了445端口的主机,一旦发现,就利用内置的ms17010(俗称“蓝色永恒”)的漏洞,把这些机子也感染。紧接着将所有的文档资料用特殊算...转载 2018-06-08 15:13:41 · 1219 阅读 · 0 评论 -
hadoop报错 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Lja
2018-04-11 16:32:28,514 INFO [org.apache.hadoop.mapreduce.JobSubmitter] - Submitting tokens for job: job_local1975654255_00012018-04-11 16:32:28,561 WARN [org.apache.hadoop.conf.Configuration] - file:...原创 2018-06-13 09:35:21 · 7684 阅读 · 8 评论 -
hive 同步数据到 Elasticsearch
add jar /var/lib/hadoop-hdfs/elasticsearch-hadoop-hive-5.2.1.jar;#创建hive_es 表CREATE EXTERNAL TABLE uup.t_es_user( useraction array<struct<id:string,pay_type:string,total:double,channel_src:...原创 2019-04-09 19:22:44 · 1308 阅读 · 0 评论