- 博客(314)
- 资源 (4)
- 论坛 (1)
- 问答 (1)
- 收藏
- 关注

原创 Hive表的基本操作
文章目录1. 创建表2. 拷贝表3. 查看表结构4. 删除表5. 修改表5.1 表重命名5.2 增、修、删分区5.3 修改列信息5.4 增加列5.5 删除列5.6 修改表的属性1. 创建表create table语句遵从sql语法习惯,只不过Hive的语法更灵活。例如,可以定义表的数据文件存储位置,使用的存储格式等。create table if not exists test.user1(name string comment 'name',salary float comment 'salar
2020-12-21 18:46:12
104

原创 数仓建模分层理论
分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构...
2020-12-12 10:58:40
98

原创 hadoop 数据迁移
数据迁移使用场景冷热集群数据分类存储,详见上述描述.集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等.数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一...
2018-11-18 13:19:36
2696

原创 每天新老用户,日活,周活,月活的hive计算
最近有一个需求,统计新老用户,日活,周活,月活;这里日活,当然了周活,月活就是一个count(distinct(guid))语句。#!/usr/bin/python# -*- coding:utf-8 -*-# hive更新历史用户表,日常查询,保存到MySQLimport sysimport datetimeimport commandsimport MySQLdb#...
2018-08-03 17:34:03
13705
5
原创 cdh中yarn调度spark,container资源倾斜,container集中于一台或几台机器
在cdh 6.0.1版本中,提交spark任务,发现yarn分配的container集中于几台节点,其它节点没有分配。这显然会导致个别机器负载过高,从而影响集群整个性能。原因yarn.scheduler.fair.assignmultiple: Whether to allow multiple container assignments in one heartbeat. Defaults to false.这个配置项决定了是否在一次心跳分配请求中分配多个containe,在CDH中默认为true,
2020-12-22 21:47:55
36
原创 Hive中的lateral view用法
explode与lateral view在关系型数据库中本身是不该出现的,因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分),本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),不过大数据技术普及后,很多类似pv,uv的数据,在业务系统中是存贮在非关系型数据库中,用json存储的概率比较大,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,explode与lateral view在这种场景下大显身手。hive> select * from test
2020-12-20 17:19:59
78
原创 通过HiveServer2访问Hive
先解释一下几个名词:metadata :hive元数据,即hive定义的表名,字段名,类型,分区,用户这些数据。一般存储关系型书库mysql中,在测试阶段也可以用hive内置Derby数据库。metastore :hivestore服务端。主要提供将DDL,DML等语句转换为MapReduce,提交到hdfs中。hiveserver2:hive服务端。提供hive服务。客户端可以通过beeline,jdbc(即用java代码链接)等多种方式链接到hive。beeline:hive客户端链接到hiv
2020-12-19 13:43:54
33
1
原创 Hive 分析函数lead、lag实例应用
Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。1 LEAD与LAG相反,LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)## 场景用户
2020-12-18 10:28:37
24
原创 数仓建模方法论
建模方法论 数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM 内存区域的划分,JVM 中堆空间的划分...
2020-12-08 23:01:04
44
原创 Hive中的锁的用法场景
前面遇到过一次因为Hive中表被锁住了,导致定时任务一直失败。这两天又出现了表被锁,原因是连接hiveserver2过于频繁,mysql连接被打满,引发的连锁反应,导致我们的小时任务一直...
2020-12-07 21:40:54
75
原创 Markdown教程
Markdown 是用来编写结构化文档的一种纯文本格式,它使我们在双手不离开键盘的情况下,可以对文本进行一定程度的格式排版。markdown语法是通用的,很多写作平台都是支持markdown的,比如简书,这就意味着做自媒体的你写一次文章,就能很快同步到各大平台,而不需要要考虑不同写作平台之间排版的兼容性,从而兼顾各大平台的流量,让你能专注于写作。优点简单易学;支持的平台都能通用,...
2020-12-03 22:47:00
24
原创 Java设计模式之动态代理
本文主要介绍Java中两种常见的动态代理方式:JDK原生动态代理和CGLIB动态代理。什么是代理模式 就是为其他对象提供一种代理以控制对这个对象的访问。代理可以在不改动目标对象的基础上,...
2020-12-03 20:40:45
44
原创 终于有人把HashTable这种数据结构讲清楚了!
概论HashTable是遗留类,很多映射的常用功能与HashMap类似,不同的是它承自Dictionary类,并且是线程安全的,并发性不如ConcurrentHashMap,因为Conc...
2020-12-02 23:03:10
76
原创 Python装饰器详解
在Python里面,函数可以作为参数传入一个函数,函数也可以复制给变量,通过变量调用函数。装饰器可以扩展一个函数的功能,为函数做一个装饰器注解,可以把装饰器里面定义的功能于所有函数提前执行,提升代码的复用程度。现在有这么个场景。打卡互联网公司里面有各种员工,程序员,前台...,程序员在打开电脑前,需要打卡,前台要早点来开门(我也不清楚,谁开门,这里假定,前台开门),前台开门前也需要...
2020-12-02 21:02:00
95
原创 肝了3天,深入总结了LinkedHashMap的面试必备知识点
概论 LinkedHashMap 通过特有底层双向链表的支持,使得LinkedHashMap可以保存元素之间的顺序,例如插入顺序或者访问顺序,而HashMap因为没有双向链表的支持,所以...
2020-11-30 08:20:00
89
2
原创 一万三千字的HashMap面试必问知识点详解
目录概论Hasmap 的继承关系hashmap 的原理解决Hash冲突的方法开放定址法再哈希法链地址法建立公共溢出区hashmap 最终的形态Hashmap 的返回值HashMap 的关键内部元素存储容器 table;size 元素个数NodeTreeNodemodCount阈值 threshold实际存储元素个数 sizedebug 源码 插入元素的过程调用put()方法调用 putv...
2020-11-28 16:24:00
121
原创 Java中的单例模式最全讲解
单例模式是 Java 中最简单的设计模式之一,它是指一个类在运行期间始终只有一个实例,我们就把它称之为单例模式。它不但被应用在实际的工作中,而且还是面试中最常考的题目之一。通过单例模式我...
2020-11-24 21:01:54
95
转载 2020十大热词!你猜到几个……
2020年还有42天就过去了在这不寻常的一年里“奇怪的词语又增加了”我们盘点了2020年十大网络热词总结成了一句顺口溜双节棍尾款人,后浪集美打工人云监工逆行者,专业工具网抑云01“打工人...
2020-11-20 08:20:00
170
转载 深入浅出聚类分析
Kervin_Chan| 作者掘金|来源https://juejin.im/post/68449039688212316231如何选择聚类分析算法聚类算法有几十种之多,聚类算法的选...
2020-11-10 08:20:00
176
转载 数学模型预测,今年双十一销售额或超3280亿
引言每年 11 月 11 日,也称“双十一”。因有四根棍一样的“1”字,被形象地称为“光棍节”。同时也因 2009 年 11 月 11 日开始淘宝举办的每年一次网购促销活动将小年轻的“光...
2020-11-06 08:20:00
332
原创 副业刚需——做哪些自媒体确实可以挣到钱?
确实有很多人做自媒体,挣到钱了。在我的认知范围内,谈一谈我的看法。我接触到的自媒体,有微信公众号,短视频,直播带货;我是个程序员,在我看来,微信公众号是挣钱最容易的一种方法。1. 微信公...
2020-10-31 08:30:00
195
原创 记一次视频版权被侵犯的维权之路
有这么一群人,他们游走于法律与道德的边缘,为了自己的一点点私利,恶意盗用他人的作品,完全没有版权意识,对作者造成了极其恶劣的影响和严重后果。记得大学时,我是班上第一个做公众号的人,也是班...
2020-10-29 08:20:00
165
转载 我都逛哪些技术网站?
来源|cnblogs.com/three-fighter/p/13641835.html众所周知,程序员是一个需要不断学习的职业,而幸运的是,在这个互联网时代,知识就在那里,等着我们去获...
2020-10-15 08:20:00
369
转载 turtle绘图入门
黎明老师https://segmentfault.com/a/1190000017854607turtle图形库源于1966年诞生的Logo语言,是入门Python的有趣工具。因其简单便...
2020-10-08 15:44:02
376
转载 分享我常用的5个免费的在线 SQL 数据库环境,简直太方便了!
作者:不剪发的Tony老师blog.csdn.net/horses/article/details/108603935文章目录SQL FiddleDB Fiddledb<>f...
2020-09-26 08:50:00
227
转载 做好数据可视化的技巧和原则!
导读:其实工作中我们并不需要作出很炫酷的视觉呈现,数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息,有效地传达思想概念,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而...
2020-09-25 08:30:00
114
转载 开源自助BI工具,傻瓜式BI分析,支持多种数据源
一:业务背景与需求梳理公司现在的数据需求主要分为两类:临时需求(业务突然想看看这波活动的效果怎样,数据指标的定义可能随时改,随时加),固化需求(每周要看,每月要看的数据,数据的定义已经非...
2020-09-19 08:55:00
707
转载 23 个机器学习开源项目,附源码
本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。我们都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?我们为你推荐这篇文章,在本教程...
2020-09-13 19:18:45
118
转载 数据科学家必备的5种离群点/异常检测方法
什么是异常/异常值?在统计学中,离群值是不属于某个总体的数据点,它是一种与其他值相差甚远的异常观察,是一种与其他结构良好的数据不同的观察值。例如,您可以清楚地看到列表中的异常值:[20,...
2020-09-06 08:55:00
295
转载 图解 Numpy,原来数据操作这么简单!
在Python数据分析领域,Numpy 这个库是少不了的,可是对于一些矩阵的操作,理解起来太抽象了。最近看到一篇文章,它以可视化的形式呈现了 Numpy 中矩阵操作的一些原理,推荐给大家...
2020-09-04 08:20:00
28
转载 PyCharm vs VSCode,是时候改变你的 IDE 了!
也许是我有些落伍,或者也是因为 JetBrains 在 Python IDE 的市场上占有很大的份额,以至于直到最近我才发现,使用 VSCode 的 Python 开发者要比预想中的多很...
2020-09-02 08:20:00
141
转载 Python数据可视化教程之基础篇
开运张 | 作者知乎专栏 |来源https://zhuanlan.zhihu.com/p/55642042经过学习之后,我总结了利用python实现可视化的三个步骤:确定问题,选择图形...
2020-08-28 17:50:00
19
转载 决策树算法的原理(接地气版)
❝决策树()是一类很常见很经典的机器学习算法,既可以作为分类算法也可以作为回归算法。同时也适合许多集成算法,如, ,以后会逐一介绍。本篇介绍一下决策树算法的原理。❞决策树算法不像前面介绍...
2020-08-24 08:20:00
52
转载 正态分布为什么常见?
统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。以前,我认为中间状态是事物的常态,过高和过低都属于少数...
2020-08-21 22:29:25
68
转载 sql中count(1)、count(*)与count(列名)的区别
1. count(1) and count(*)当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count(*)用时多了!从执行计划来看,count(1)和count(...
2020-08-17 20:52:31
117
转载 为什么建议大家使用 Linux 开发?Linux图形界面也不错
作者:夏日浅笑cnblogs.com/summertime-wu/p/11140052.htmlLinux 能用吗? 我身边还有些朋友对 linux 的印象似乎还停留在黑乎乎的命令行界面...
2020-08-14 08:20:00
641
转载 对不起,不懂数据分析我们无法录用你
不久前,清华大学经管学院发布了《中国经济的数字化转型:人才与就业》的报告,根据报告显示,当前我国大数据领域人才缺口高达150万,到2025年将达到200万。数据来源:2019年中国AI&...
2020-08-10 08:55:16
111
转载 机器学习中算法与模型的区别
Datawhale干货Author:Sambodhi,海边的拾遗者From:Datawhale导读机器学习涉及到机器学习算法和模型的使用。对于初学者来说,这很容易让人混淆,因为“机器...
2020-08-07 12:57:09
185
转载 什么是a站、b站、c站、d站、e站、f站、g站、h站、i站、j站、k站、l站、m站、n站…z站?...
加“星标★”,每天早晨08:30,好文必达作者:好游快爆链接:https://urlify.cn/2aMrme前言提到二次元,你只知B站?其实——ABCDEFGHIJKLMNOP,我们二...
2020-08-01 08:50:00
153
转载 8个流行的Python可视化工具包。
来源:机器之心作者:Aaron Frederick参与:李诗萌、王淑婷喜欢用 Python 做项目的小伙伴不免会遇到这种情况:做图表时,用哪种好看又实用的可视化工具包呢?之前文章里出现过...
2020-07-29 08:20:00
46
hadoop-2.7.2 windows7环境编译文件(winutils.exe、hadoop.dll)
2018-03-07
mapreduce结果文件_SUCCESS怎么不让它生成?
发表于 2018-05-19 最后回复 2019-11-01
谁知道python3怎么安装包scrapy,谢谢。
2017-02-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝