自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

柯广的博客

微信搜索:Java大数据与数据仓库

  • 博客(314)
  • 资源 (4)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hive表的基本操作

文章目录1. 创建表2. 拷贝表3. 查看表结构4. 删除表5. 修改表5.1 表重命名5.2 增、修、删分区5.3 修改列信息5.4 增加列5.5 删除列5.6 修改表的属性1. 创建表create table语句遵从sql语法习惯,只不过Hive的语法更灵活。例如,可以定义表的数据文件存储位置,使用的存储格式等。create table if not exists test.user1(name string comment 'name',salary float comment 'salar

2020-12-21 18:46:12 104

原创 数仓建模分层理论

分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构...

2020-12-12 10:58:40 98

原创 hadoop 数据迁移

数据迁移使用场景冷热集群数据分类存储,详见上述描述.集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等.数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一...

2018-11-18 13:19:36 2696

原创 每天新老用户,日活,周活,月活的hive计算

最近有一个需求,统计新老用户,日活,周活,月活;这里日活,当然了周活,月活就是一个count(distinct(guid))语句。#!/usr/bin/python# -*- coding:utf-8 -*-# hive更新历史用户表,日常查询,保存到MySQLimport sysimport datetimeimport commandsimport MySQLdb#...

2018-08-03 17:34:03 13705 5

原创 cdh中yarn调度spark,container资源倾斜,container集中于一台或几台机器

在cdh 6.0.1版本中,提交spark任务,发现yarn分配的container集中于几台节点,其它节点没有分配。这显然会导致个别机器负载过高,从而影响集群整个性能。原因yarn.scheduler.fair.assignmultiple: Whether to allow multiple container assignments in one heartbeat. Defaults to false.这个配置项决定了是否在一次心跳分配请求中分配多个containe,在CDH中默认为true,

2020-12-22 21:47:55 36

原创 Hive中的lateral view用法

explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,explode与lateral view在这种场景下大显身手。hive> select * from test

2020-12-20 17:19:59 78

原创 通过HiveServer2访问Hive

先解释一下几个名词:metadata :hive元数据,即hive定义的表名,字段名,类型,分区,用户这些数据。一般存储关系型书库mysql中,在测试阶段也可以用hive内置Derby数据库。metastore :hivestore服务端。主要提供将DDL,DML等语句转换为MapReduce,提交到hdfs中。hiveserver2:hive服务端。提供hive服务。客户端可以通过beeline,jdbc(即用java代码链接)等多种方式链接到hive。beeline:hive客户端链接到hiv

2020-12-19 13:43:54 33 1

原创 Hive 分析函数lead、lag实例应用

Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。1 LEAD与LAG相反,LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)## 场景用户

2020-12-18 10:28:37 24

原创 数仓建模方法论

建模方法论 数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM 内存区域的划分,JVM 中堆空间的划分...

2020-12-08 23:01:04 44

原创 Hive中的锁的用法场景

前面遇到过一次因为Hive中表被锁住了,导致定时任务一直失败。这两天又出现了表被锁,原因是连接hiveserver2过于频繁,mysql连接被打满,引发的连锁反应,导致我们的小时任务一直...

2020-12-07 21:40:54 75

原创 Markdown教程

Markdown 是用来编写结构化文档的一种纯文本格式,它使我们在双手不离开键盘的情况下,可以对文本进行一定程度的格式排版。markdown语法是通用的,很多写作平台都是支持markdown的,比如简书,这就意味着做自媒体的你写一次文章,就能很快同步到各大平台,而不需要要考虑不同写作平台之间排版的兼容性,从而兼顾各大平台的流量,让你能专注于写作。优点简单易学;支持的平台都能通用,...

2020-12-03 22:47:00 24

原创 Java设计模式之动态代理

本文主要介绍Java中两种常见的动态代理方式:JDK原生动态代理和CGLIB动态代理。什么是代理模式 就是为其他对象提供一种代理以控制对这个对象的访问。代理可以在不改动目标对象的基础上,...

2020-12-03 20:40:45 44

原创 终于有人把HashTable这种数据结构讲清楚了!

概论HashTable是遗留类,很多映射的常用功能与HashMap类似,不同的是它承自Dictionary类,并且是线程安全的,并发性不如ConcurrentHashMap,因为Conc...

2020-12-02 23:03:10 76

原创 Python装饰器详解

在Python里面,函数可以作为参数传入一个函数,函数也可以复制给变量,通过变量调用函数。装饰器可以扩展一个函数的功能,为函数做一个装饰器注解,可以把装饰器里面定义的功能于所有函数提前执行,提升代码的复用程度。现在有这么个场景。打卡互联网公司里面有各种员工,程序员,前台...,程序员在打开电脑前,需要打卡,前台要早点来开门(我也不清楚,谁开门,这里假定,前台开门),前台开门前也需要...

2020-12-02 21:02:00 95

原创 肝了3天,深入总结了LinkedHashMap的面试必备知识点

概论 LinkedHashMap 通过特有底层双向链表的支持,使得LinkedHashMap可以保存元素之间的顺序,例如插入顺序或者访问顺序,而HashMap因为没有双向链表的支持,所以...

2020-11-30 08:20:00 89 2

原创 一万三千字的HashMap面试必问知识点详解

目录概论Hasmap 的继承关系hashmap 的原理解决Hash冲突的方法开放定址法再哈希法链地址法建立公共溢出区hashmap 最终的形态Hashmap 的返回值HashMap 的关键内部元素存储容器 table;size 元素个数NodeTreeNodemodCount阈值 threshold实际存储元素个数 sizedebug 源码 插入元素的过程调用put()方法调用 putv...

2020-11-28 16:24:00 121

原创 Java中的单例模式最全讲解

单例模式是 Java 中最简单的设计模式之一,它是指一个类在运行期间始终只有一个实例,我们就把它称之为单例模式。它不但被应用在实际的工作中,而且还是面试中最常考的题目之一。通过单例模式我...

2020-11-24 21:01:54 95

转载 2020十大热词!你猜到几个……

2020年还有42天就过去了在这不寻常的一年里“奇怪的词语又增加了”我们盘点了2020年十大网络热词总结成了一句顺口溜双节棍尾款人,后浪集美打工人云监工逆行者,专业工具网抑云01“打工人...

2020-11-20 08:20:00 170

转载 深入浅出聚类分析

Kervin_Chan| 作者掘金|来源https://juejin.im/post/68449039688212316231如何选择聚类分析算法聚类算法有几十种之多,聚类算法的选...

2020-11-10 08:20:00 176

转载 数学模型预测,今年双十一销售额或超3280亿

引言每年 11 月 11 日,也称“双十一”。因有四根棍一样的“1”字,被形象地称为“光棍节”。同时也因 2009 年 11 月 11 日开始淘宝举办的每年一次网购促销活动将小年轻的“光...

2020-11-06 08:20:00 332

原创 副业刚需——做哪些自媒体确实可以挣到钱?

确实有很多人做自媒体,挣到钱了。在我的认知范围内,谈一谈我的看法。我接触到的自媒体,有微信公众号,短视频,直播带货;我是个程序员,在我看来,微信公众号是挣钱最容易的一种方法。1. 微信公...

2020-10-31 08:30:00 195

原创 记一次视频版权被侵犯的维权之路

有这么一群人,他们游走于法律与道德的边缘,为了自己的一点点私利,恶意盗用他人的作品,完全没有版权意识,对作者造成了极其恶劣的影响和严重后果。记得大学时,我是班上第一个做公众号的人,也是班...

2020-10-29 08:20:00 165

转载 我都逛哪些技术网站?

来源|cnblogs.com/three-fighter/p/13641835.html众所周知,程序员是一个需要不断学习的职业,而幸运的是,在这个互联网时代,知识就在那里,等着我们去获...

2020-10-15 08:20:00 369

转载 turtle绘图入门

黎明老师https://segmentfault.com/a/1190000017854607turtle图形库源于1966年诞生的Logo语言,是入门Python的有趣工具。因其简单便...

2020-10-08 15:44:02 376

转载 分享我常用的5个免费的在线 SQL 数据库环境,简直太方便了!

作者:不剪发的Tony老师blog.csdn.net/horses/article/details/108603935文章目录SQL FiddleDB Fiddledb<>f...

2020-09-26 08:50:00 227

转载 做好数据可视化的技巧和原则!

导读:其实工作中我们并不需要作出很炫酷的视觉呈现,数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息,有效地传达思想概念,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而...

2020-09-25 08:30:00 114

转载 开源自助BI工具,傻瓜式BI分析,支持多种数据源

一:业务背景与需求梳理公司现在的数据需求主要分为两类:临时需求(业务突然想看看这波活动的效果怎样,数据指标的定义可能随时改,随时加),固化需求(每周要看,每月要看的数据,数据的定义已经非...

2020-09-19 08:55:00 707

转载 23 个机器学习开源项目,附源码

本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?我们为你推荐这篇文章,在本教程...

2020-09-13 19:18:45 118

转载 数据科学家必备的5种离群点/异常检测方法

什么是异常/异常值?在统计学中,离群值是不属于某个总体的数据点,它是一种与其他值相差甚远的异常观察,是一种与其他结构良好的数据不同的观察值。例如,您可以清楚地看到列表中的异常值:[20,...

2020-09-06 08:55:00 295

转载 图解 Numpy,原来数据操作这么简单!

在Python数据分析领域,Numpy 这个库是少不了的,可是对于一些矩阵的操作,理解起来太抽象了。最近看到一篇文章,它以可视化的形式呈现了 Numpy 中矩阵操作的一些原理,推荐给大家...

2020-09-04 08:20:00 28

转载 PyCharm vs VSCode,是时候改变你的 IDE 了!

也许是我有些落伍,或者也是因为 JetBrains 在 Python IDE 的市场上占有很大的份额,以至于直到最近我才发现,使用 VSCode 的 Python 开发者要比预想中的多很...

2020-09-02 08:20:00 141

转载 Python数据可视化教程之基础篇

开运张 | 作者知乎专栏 |来源https://zhuanlan.zhihu.com/p/55642042经过学习之后,我总结了利用python实现可视化的三个步骤:确定问题,选择图形...

2020-08-28 17:50:00 19

转载 决策树算法的原理(接地气版)

❝决策树()是一类很常见很经典的机器学习算法,既可以作为分类算法也可以作为回归算法。同时也适合许多集成算法,如, ,以后会逐一介绍。本篇介绍一下决策树算法的原理。❞决策树算法不像前面介绍...

2020-08-24 08:20:00 52

转载 正态分布为什么常见?

统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。以前,我认为中间状态是事物的常态,过高和过低都属于少数...

2020-08-21 22:29:25 68

转载 sql中count(1)、count(*)与count(列名)的区别

1. count(1) and count(*)当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count(*)用时多了!从执行计划来看,count(1)和count(...

2020-08-17 20:52:31 117

转载 为什么建议大家使用 Linux 开发?Linux图形界面也不错

作者:夏日浅笑cnblogs.com/summertime-wu/p/11140052.htmlLinux 能用吗? 我身边还有些朋友对 linux 的印象似乎还停留在黑乎乎的命令行界面...

2020-08-14 08:20:00 641

转载 对不起,不懂数据分析我们无法录用你

不久前,清华大学经管学院发布了《中国经济的数字化转型:人才与就业》的报告,根据报告显示,当前我国大数据领域人才缺口高达150万,到2025年将达到200万。数据来源:2019年中国AI&...

2020-08-10 08:55:16 111

转载 机器学习中算法与模型的区别

Datawhale干货Author:Sambodhi,海边的拾遗者From:Datawhale导读机器学习涉及到机器学习算法和模型的使用。对于初学者来说,这很容易让人混淆,因为“机器...

2020-08-07 12:57:09 185

转载 什么是a站、b站、c站、d站、e站、f站、g站、h站、i站、j站、k站、l站、m站、n站…z站?...

加“星标★”,每天早晨08:30,好文必达作者:好游快爆链接:https://urlify.cn/2aMrme前言提到二次元,你只知B站?其实——ABCDEFGHIJKLMNOP,我们二...

2020-08-01 08:50:00 153

转载 8个流行的Python可视化工具包。

来源:机器之心作者:Aaron Frederick参与:李诗萌、王淑婷喜欢用 Python 做项目的小伙伴不免会遇到这种情况:做图表时,用哪种好看又实用的可视化工具包呢?之前文章里出现过...

2020-07-29 08:20:00 46

阿里巴巴java开发手册中文版

阿里巴巴java开发手册,高清原版,规范你的java开发习惯,让你的开发习惯与顶级互联网公对齐!

2018-09-02

hive-hbase-handler-1.2.1.jar

hive-hbase-handler-1.2.1.jar解决hive1.2.1,hbase不兼容情况!

2018-08-15

hadoop-2.7.2 windows7环境编译文件(winutils.exe、hadoop.dll)

windows环境下开发hadoop与本地运行,会报错,需要编译win环境hadoop工具 否则,可能会有两种错误: 1、Did not find winutils.exe: java.io.FileNotFoundException; 2、java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows 将里面的bin目录覆盖到hadoop对应bin目录即可

2018-03-07

用matlab编写猜字小游戏

用matlab编写猜字小游戏

2016-10-24

mapreduce结果文件_SUCCESS怎么不让它生成?

发表于 2018-05-19 最后回复 2019-11-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除