自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(156)
  • 收藏
  • 关注

原创 hive 中常用的HDFS命令

1.查看表路径:desc formatted 表名。2.查看数据文件: dfs -ls 表路径。HIVE中常用的shell命令。

2023-05-07 18:36:52 702 1

原创 Hive lateral view explode

page_id, adid_list 都是原表 pageads 的列(字段);adtables:explode形成的新虚拟表,可以不写;ad_id:explode 形成的新列(字段);假设表:pageads。

2023-05-07 18:31:26 135

转载 Flink简介、安装、使用

Flink简介、安装、使用

2021-08-14 23:08:17 213

原创 java标识符

一、命名规则:1、小驼峰命名法:方法、变量标识符只有一个单词时,首字母小写:eg:name标识符由多哥单词时,第一个首字母小写,其他首字母大写:eg:firstName2、大驼峰命名法:类标识符只有一个单词时,首字母大写:eg:Name标识符由多哥单词时,每个首字母大写:eg:FirstName...

2021-08-14 23:02:21 180

原创 grouping__id grouping sets在hive和spark中执行的区别

一、hive中的grouping__id的数字规则(取反有则为1无则为0)如select a,b,c,grouping__id from test group by a,b,cgrouping sets ((ab),(ac),(abc))规则:根据group by 字段 ,从低到高,group sets中出现的字段是1没出现是0如 (a,b)对应 011 (a,c)对应 101二、spark中的grouping__id()的数字规则(有则为0无则为1)如select a,b,c,gr..

2021-04-18 21:41:24 1894 1

原创 HIve中表的复制、增加列、修改列名、修改表名、修改注释等

一、查看表路径desc formatted 表名eg:desc formatted 表A;二、hive复制表结构CREATE TABLE new_table LIKE old_table;eg:CREATE external TABLE 表ALIKE 表B 'hdfs://../表A';三、修改表,插入列alter table tb1 add columns(列名string COMMENT '注释') cascade;四、修改表的汉字名称例如将 社交粉丝订单修改...

2021-04-18 21:34:52 979

原创 HIVE中对表的基本操作(包括增加、删除、修改)

一、HIVE语句1.hive复制表结构CREATE TABLE new_table LIKE old_table;CREATE TABLE adm_d05_content_log_di_olap_test LIKE adm_d05_content_log_di;CREATE external TABLE adm.adm_d05_content_log_di_olap_test LIKE adm.adm_d05_content_log_di location 'hdfs://ns8/user/dd_e

2020-12-12 21:08:20 1706

原创 Clickhouse中对表的基本操作(增加、删除、修改列等)

1.CK中添加列:ALTER TABLE 表名称 ON 集群名称 ADD COLUMN 列名称 类型 DEFAULT 注解eg:ALTER TABLE 表名称 ON CLUSTER ZYX_CK_Pub_061 ADD COLUMN lvl Int32 DEFAULT 'lvl'2.CK中修改注释:alter table 表名称 ON 集群名称 COMMENT COLUMN 列名称 注解;alter table adm_sch_d05_content_live_service_di_local ON C

2020-12-12 21:04:02 34885 2

原创 hive mapjoin

select t1.a,t1.b from A join B on ( A.a=B.a and A.lD=20201190)该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有10亿行记录,在运行过程中特别的慢。MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,而普通的 join则是类似于mapreduce模型中的file join,需要先分组,然后再reduce端进行连接,使用的时候需要结合着场景;由于map..

2020-08-11 23:10:20 202 1

原创 数据库SQL中求平均函数avg对于值为NULL和值为0的计算区别

a b 3 3 2 2 0 NULL 4 4 具体如表所示对a求平均:avg(a)=(3+2+0+4)/4=9/4 对b求平均:avg(b)=(3+2+4)/3=9/3结论:avg求平均时自动去除NULL

2020-08-08 21:20:24 3778

原创 Hive中4个By Sort By 、Order By、Distrbute By、 Cluster By区别

1)SortBy:分区内有序;2)Order By:全局排序,只有一个Reducer;3)Distrbute By:类似MR中Partition,进行分区,结合sort by使用。4)Cluster By:当Distribute by和Sorts by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC。...

2020-08-08 21:14:42 1327

原创 Hive中内部表和外部表区别

1)内部表:当我们删除一个内部表时,Hive也会删除这个表和数据。2)外部表:删除该表并不会删除掉原始数据,删除的是表的元数据。

2020-08-08 21:11:17 242

原创 Hive和传统数据库的区别

1)数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的, 3)执行延迟Hive执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。4)数据规模Hive支持很大规模的数据计算;数据库可以支持的数据规模较小。...

2020-08-08 21:09:06 560

原创 SQL Select 语句完整的执行顺序:

from--->where--->group by--->having

2020-08-08 20:55:48 159

原创 中铁笔试题 火车空闲座位问题

题目如下:代码如下:import sysline1 = sys.stdin.readline().strip()W,M = list(map(int, line1.split()))arr=[]N=0for k in range(W): N+=karr=[]for i in range(N): arr.append(list(map(int,(sys.stdin.readline().strip().split()))))#print(arr)pr..

2020-06-12 16:08:59 726

原创 红黑树

二叉查找树概念:1.左子树上所有结点的值均小于或等于它的根结点的值。2.右子树上所有结点的值均大于或等于它的根结点的值。3.左、右子树也分别为二叉排序树。下图为二叉查找树红黑树的概念:它一种特殊的二叉查找树。红黑树的每个节点上都有存储位表示节点的颜色,可以是红(Red)或黑(Black)。红黑树的特点:1.每个节点是黑色或者红色。2.根节点是黑色。3.每个叶子节点是黑色。4.如果一个节点是红色的,则它的子节点必须是黑色的。5.从一个节点到该节点的子孙.

2020-05-30 14:08:42 136

转载 数据结构中B树和B+树的区别

转载链接:https://msd.misuland.com/pd/2884250171976189524B树和B+树数据结构及使用场景1.出现的原因​ 我们已经知道他们两是mysql索引的数据结构,为什么要使用这种数据结构呢?我们知道内存读取效率远远高于磁盘IO的效率,当数据量大而不能完全存放于内存时,只能依靠磁盘了,一次存放于磁盘页中,每个磁盘页对应一个树的节点。也就是说只要我们能减少磁盘IO的次数,那么查询效率就会显著提高。如何减少?B树就是通过降低树的深度,将二叉树的“瘦高”变成“矮胖

2020-05-25 22:32:55 842

原创 操作系统中作业的调度算法

选择调度方式和调度算法的若干准则1.面向用户的准则 (1) 周转时间短。 周转时间是指从作业被提交给系统开始,到作业完成为止的这段时间间隔(称为作业周转时间)。 包括四部分: 1、作业在外存后备队列上等待(作业)调度的时间 2、进程在就绪队列上等待进程调度的时间 3、进程在CPU上执行的时间 4、进程等待I/O操作完成的时间。(a)周转时间 = 完成时刻 - 提交时刻(到达时间) ...

2020-05-24 17:26:43 8179

原创 计算机网络的五层协议

1.物理层的基本概念:(在物理层上所传数据的单位是比特。物理层的任务就是透明地传送比特流)物理层的主要任务描述为确定与传输媒体的接口的一些特性,即:机械特性 指明接口所用接线器的形状和尺寸、引线数目和排列、固定和锁定装置等等。电气特性 指明在接口电缆的各条线上出现的电压的范围。功能特性 指明某条线上出现的某一电平的电压表示何种意义。过程特性 指明对于不同功能的各种可能事件的出现顺序。2.数据链路层的基本概念:(常简称为链路层,我们知道,两个主机之间的...

2020-05-23 22:50:33 3289 1

原创 for循环中break与continue的区别

break用于完全结束一个循环,跳出循环体执行循环后面的语句;而continue是跳过当次循环中剩下的语句,执行下一次循环。简单点说就是break完全结束循环,continue终止本次循环。eg:如果是break就直接到了语句:AAAAAAAA。如果是continue则会跳过本次循环,继续执行for语句。直到for循环结束才会执行AAAAAAAAfor i in range(len(nums)): if nums[i] > 0: break if .

2020-05-23 22:35:59 406

原创 HDFS的读写原理

1.HDFS的写入原理2.HDFS读数据原理注意第3步:我们会选取比较健全完好的存有block1、block2、block2的DataNode。下面的例子选取的是DataNode1和DataNode2.两个点满足3个数据块同时有。

2020-05-22 22:25:36 184

转载 Shell常用工具find,grep,sed,awk命令

声明:此篇文章为转载具体链接:https://www.cnblogs.com/pengpp/p/9469544.htmlShell常用工具find,grep,sed,awk,xargs命令最近学习shell命令,对grep,sed,awk命令有点混乱,故小结一下,巩固一遍。注意:find , grep , sed, awk可使用基本正则表达式字符,find,grep,awk也支持扩展的正则表达式元字符,grep使用扩展正则必须结合-E或直接使用egrep命令。基本正则表达式元字符有:*

2020-05-22 21:20:07 423

原创 Shell常用工具 awk

awk 是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理。awk 选项 '模式或条件 {编辑指令}' 文件默认为“空格”间隔,可以通过-F 来指定间隔。awk 借用 shell 中类似于位置变量的方法, 用$1、$2、$3„顺序地表示行(记录)中的不同字段。另外 awk 用$0 表示整个行(记录)。不同的字段之间是通过指定的字符分隔。awk 默认的分隔符是空格。eg:文件123.txt1|2|3|r3|4|f|6.

2020-05-22 21:06:31 260

原创 二叉树

1.二叉树概念2 二叉树的特点1)树执行查找、删除、插入的时间复杂度都是O(logN)2)遍历二叉树的方法包括前序、中序、后序3)非平衡树指的是根的左右两边的子节点的数量不一致4) 在非空二叉树中,第i层的结点总数不超过 , i>=1;5)深度为h的二叉树最多有(2的n次方-1)个结点(h>=1),最少有h个结点;6)对于任意一棵二叉树,如果其叶结点数为N0,而度数为2的结点总数为N2,则N0=N2+1;...

2020-05-22 20:49:38 228

原创 jvm的内存结构

java虚拟机的内存结构分为堆(heap)和栈(stack)堆里面存放是对象实例也就是new出来的对象。栈里面存放的是基本数据类型以及引用数据类型的地址。对于所谓的常量是存储在方法区的常量池里面。...

2020-05-21 22:33:39 113

原创 List和Set以及map的区别(图解)

list和set的区别:如下图所示:list中可以有重复元素,set中不可以。具体解释:1.list:ArrayList和LinkedList是我们常用的数据结构,它们都是线性表,ArrayList是顺序存储的线性表,LinkedList是链式存储的线性表。LinkedList:LinkedList是一个双向链表, 当数据量很大或者操作很频繁的情况下,添加和删除元素时具有比ArrayList更好的性能。但在元素的查询和修改方面要弱于ArrayList。ArrayL..

2020-05-21 22:16:34 1604 1

原创 java的基本数据类型

java的基本数据类型 数据类型 大小byte(字节) 1(8位)shot(短整型) 2(16位)int(整型) 4 (32位)long(长整型) 8(32位)float(浮点型) 4(32位)double(双精度) 8(64位)char(字符型) 2(16位)boolean(布尔型) 1位...

2020-05-21 21:08:40 116

原创 Hashtable与HashMap的区别(图文详解)

1.HashMap的数据结构:HashMap实际上是一个“链表散列”的数据结构,即数组和链表的结合体。如下图,HashMap底层就是一个数组结构,数组中的每一项又是一个链表。当新建一个HashMap的时候,就会初始化一个数组。并允许使用null值和null键。具体的数据结构图如下图所示,由数组和链表构成。允许使用为null的键和值。2.HashTable概述:和HashMap一样,HashTable也是一个散列表,它存储的内容是键值对映射。HashTable继承于Dictionar.

2020-05-21 21:05:54 1988

原创 排序数组去重

给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。给定数组 nums = [1,1,2],函数应该返回新的长度 2, 并且原数组 nums 的前两个元素被修改为 1, 2。你不需要考虑数组中超出新长度后面的元素。给定 nums = [0,0,1,1,1,2,2,3,3,4],函数应该返回新的长度 5, 并且原数组 nums 的前五个元素被修改为..

2020-05-19 17:38:20 642

原创 Hive中行,列互换

表AID num 1 2 1 3 1 4 2 6 2 8 ...

2020-04-14 15:28:36 266

原创 matplotlib中显示汉字,坐标轴,作图,图例显示

#复式折线图: x_data = ['top5','top10','top15','top20','top25'] y_data = [58000,60200,63000,71000,84000] y_data2 = [52000,54200,51500,58300,56800] plt.title(u"模型分析") plt.xlabel...

2020-02-29 22:14:58 3208

原创 django'ForeignKey' object has no attribute 'rel'

报错:修改:原来语句:原语句if field.rel.limit_choices_to:修改后:将rel修改为 remote_fieldif field.remote_field.limit_choices_to:

2020-02-04 15:12:29 1055

原创 one-hot 编码 preprocessing.OneHotEncoder()

from sklearn import preprocessingenc = preprocessing.OneHotEncoder()enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) enc.transform([[0, 1, 3]]).toarray()有3列,每列为一个特征:0 0 3 1 ...

2019-12-29 20:05:47 1801

转载 xadmin显示及重写xadmin

我自己重写的方法:(这个方法并没有改变)def __unicode__(self): return self.username参看下面的链接用:(这个方法解决)def __str__(self): return self.name参考链接:https://blog.csdn.net/qq_34964399/article/details/80303544...

2019-11-10 18:38:16 299

原创 微店校招算法笔试题 2019 字符串匹配 python

例子:s1长度大s2,只要s1包含s2里所有的就为true,否则flase(要求时间复杂度和空间复杂度最优)s1:asdfghjkls2:hjkl输出:trueimport sysdef sume(l1,l2): count=0 for i in range(len(l2)): if l2[i] in l1: count=c...

2019-11-06 20:10:06 416

原创 django2集成xadmin list index out of range报错追踪和处理

第一种解决方法:参考:https://blog.csdn.net/sethcss/article/details/79768170input_html = [ht for ht in super(AdminSplitDateTime, self).render(name, value, attrs).split('/><') if ht != '']input_html[0]...

2019-11-04 20:30:42 174

转载 Django2.1集成xadmin管理后台所遇到的错误

https://www.cnblogs.com/xingfuggz/p/10142388.html

2019-11-04 16:50:00 161

转载 UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 3444: illegal multibyte sequence

https://blog.csdn.net/qingche456/article/details/58279692

2019-11-03 21:14:05 1164

转载 (1452, 'Cannot add or update a child row: a foreign key constraint fails (`test`.`django_admin_log`,

https://www.cnblogs.com/zhanghongqi/p/11284208.html

2019-11-03 20:39:12 403

转载 __init__() missing 1 required positional argument: 'on_delete'

参考https://www.cnblogs.com/phyger/p/8035253.html

2019-11-03 19:05:04 1580

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除