风远陌

知识是一片海洋,因分享而共同远航。

Hive UDTF 报错

报错: Status: Failed Vertex failed, vertexName=Map 2, vertexId=vertex_1556099599099_3665_1_00, diagnostics=[Task failed, taskId=task_1556099599099_366...

2019-05-22 21:01:12

阅读数 6

评论数 0

Exception in thread "main" java.io.IOException: Trying to load more than 32 hfiles to one family of

遇见问题: 命令: hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /user/yz/zhaochao/duotou200/ neibudt_200_cols_hfile20190409_1 报错: ...

2019-04-10 14:24:02

阅读数 52

评论数 0

Flink生成Hfile

提出需求: 团队为了统一技术栈,一致同意用Flink来进行对批和流计算统一处理。 问题来了: Flink似乎相对spark来说还是很不完善,spark分分钟搞定的事情,在Flink里就需要动动脑子了。 参考spark; object CreateHfile { ...

2019-04-08 17:36:37

阅读数 41

评论数 0

Hbase批量导入&批量删除

Hi: 小明:sir,我遇见一个需求,根据42万手机号码段生产全量的手机号。 大牛:what,那岂不是要生成42亿多手机号。 小明:yes,而且还需要每次随机提取一千万条,第二次提取不能包含上一次的手机号。 大牛:shit,good luck。 思考时间……...

2019-04-01 12:11:37

阅读数 46

评论数 0

java 按照指定大小拆分List

/** * 将一个list均分成n个list,主要通过偏移量来实现的 * * @param source * @return */ public static <T> List<List&l...

2019-04-01 10:47:26

阅读数 55

评论数 0

hive复制表结构

CREATE TABLE new_table LIKE old_table;

2019-03-04 11:11:59

阅读数 53

评论数 0

互联网金融做大数据风控的九种维度

在互联网金融迅猛发展的背景下,风险控制问题已然成为行业焦点,基于大数据的风控模型正在成为互联网金融领域的热门战场。那么,大数据风控到底是怎么一回事呢?与传统风控相比,它又是怎样来进行风险识别的呢?本文对此进行了探讨。   大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景...

2019-01-30 16:50:09

阅读数 187

评论数 0

P2P贷款全攻略,贷前、贷中、贷后工作事项解析

from:https://www.cnblogs.com/nxld/p/6607258.html 一、贷前调查事项   贷前调查是所有银行、小贷、P2P等等往出贷款部门的重中之重。   归根结底就是两条:让不对称信息最大限度对称、让软信息最大限度真实还原。   客户还不还款就是取决两大因素...

2019-01-30 15:35:04

阅读数 252

评论数 0

hadoop MultipleOutputs 输出丢数据问题

问题:    需求是MapReduce一个文件输入后,转化成三个输出文件。   结果总是丢文件,又是输出三个,有时输出四个,很鸡鸡难受。   解决方案: 文档要看全,兄弟 ...

2019-01-28 16:55:02

阅读数 35

评论数 0

window切换账号linux su

runas /user:hdfs cmd window 添加账号 https://jingyan.baidu.com/article/c910274bb7ca5acd371d2d51.html

2019-01-18 10:24:28

阅读数 49

评论数 0

windows本地开发MapReduce提交到集群

概述 准备 JDK安装及环境变量 参考:https://jingyan.baidu.com/article/f96699bb163475894e3c1be4.html 下载hadoop安装包 链接:https://archive.apache.org/dist/hadoop/...

2019-01-17 17:51:53

阅读数 57

评论数 0

Windows环境下hadoop安装和配置

第一步:下载文件 1.hadoop各种版本下载:https://archive.apache.org/dist/hadoop/common/ 2.winutils下载 https://github.com/steveloughran/winutils   第二步:安装 https://b...

2019-01-16 21:13:09

阅读数 56

评论数 0

hadoop 步步填坑

001坑:Windows平台Hadoop出现 Exception message: CreateSymbolicLink error (1314): ??????????? 网上的说法:https://stackoverflow.com/questions/28958999/hdfs-write...

2019-01-16 21:02:20

阅读数 125

评论数 0

spark "main" java.lang.ArrayIndexOutOfBoundsException: 10582

升级 你的 paranamer 到2.8 ,这是由于你的jdk版本1.8导致 <!-- https://mvnrepository.com/artifact/com.thoughtworks.paranamer/paranamer --> &...

2019-01-14 14:34:13

阅读数 491

评论数 3

实施数据治理项目是数据中心建设的关键,数字化转型的基础

from: https://mp.weixin.qq.com/s/qhUxr8Ij6RdXiqj9Gk9Gbw     导读   企业数字化转型趋势是“数据”引领业务变革,数据集中管控成为大势所趋,如何做好数据共享和数据分析、如何发挥数据资产价值最大化是我们信息化工作首要目标,本文从...

2019-01-09 16:56:02

阅读数 422

评论数 0

数据仓库规范

from:http://www.mamicode.com/info-detail-1247372.html 一. 数据仓库层次结构规范 1.1 基本分层结构 系统的信息模型从存储的内容方面可以分为,STAGE接口信息模型、ODS/DWD信息模型,MID信息模型、DM信息模型、元数据信息模型。...

2019-01-09 14:44:50

阅读数 113

评论数 0

数据仓库基础理论笔记

from:https://blog.csdn.net/china_demon/article/details/51891873 第一节 互联网电商大数据环境 如果你真正进入这个行业了! 入职后你所在部门一般叫:数据平台、数据中心、数据部 可能的团队:数据仓库组;BI(商业智能)组、某事业部数据组...

2019-01-09 12:03:45

阅读数 122

评论数 0

大数据建模五步法

from:https://www.sohu.com/a/198093510_783844 前一阵子,某网络公司发起了一个什么建模大赛,有个学员问我,数据建模怎么搞? 为了满足他的好学精神,我决定写这一篇文章,来描述一下数据分析必须要掌握的技能:数据建模。 本文将尝试来梳理一下数据建模的步骤,...

2019-01-02 10:45:01

阅读数 862

评论数 0

多线程处理文件

package com.geotmt.zxw.utils; import com.google.common.collect.Lists; import lombok.extern.slf4j.Slf4j; import java.io.*; import com.google.common...

2018-12-03 15:59:30

阅读数 38

评论数 0

git学习

from:https://zhuanlan.zhihu.com/p/30044692 (预警:因为详细,所以行文有些长,新手边看边操作效果出乎你的预料) 一:Git是什么? Git是目前世界上最先进的分布式版本控制系统。 工作原理 / 流程: Workspace:工作区 Index / S...

2018-11-21 15:37:17

阅读数 39

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭