空城gang-CSDN博客

原创 hive 中常用的HDFS命令

1.查看表路径：desc formatted 表名。2.查看数据文件： dfs -ls 表路径。HIVE中常用的shell命令。

2023-05-07 18:36:52 826 1

原创 Hive lateral view explode

page_id, adid_list 都是原表 pageads 的列（字段）；adtables：explode形成的新虚拟表，可以不写；ad_id：explode 形成的新列（字段）；假设表：pageads。

2023-05-07 18:31:26 155

原创 java标识符

一、命名规则：1、小驼峰命名法：方法、变量标识符只有一个单词时，首字母小写：eg:name标识符由多哥单词时，第一个首字母小写，其他首字母大写：eg:firstName2、大驼峰命名法：类标识符只有一个单词时，首字母大写：eg:Name标识符由多哥单词时，每个首字母大写：eg:FirstName...

2021-08-14 23:02:21 204

原创 grouping__id grouping sets在hive和spark中执行的区别

一、hive中的grouping__id的数字规则（取反有则为1无则为0）如select a,b,c,grouping__id from test group by a,b,cgrouping sets ((ab),(ac),(abc))规则：根据group by 字段，从低到高，group sets中出现的字段是1没出现是0如（a,b）对应 011 （a,c）对应 101二、spark中的grouping__id()的数字规则（有则为0无则为1）如select a,b,c,gr..

2021-04-18 21:41:24 2057 1

原创 HIve中表的复制、增加列、修改列名、修改表名、修改注释等

一、查看表路径desc formatted 表名eg：desc formatted 表A;二、hive复制表结构CREATE TABLE new_table LIKE old_table;eg:CREATE external TABLE 表ALIKE 表B 'hdfs://../表A';三、修改表，插入列alter table tb1 add columns(列名string COMMENT '注释') cascade;四、修改表的汉字名称例如将社交粉丝订单修改...

2021-04-18 21:34:52 1027

原创 HIVE中对表的基本操作（包括增加、删除、修改）

一、HIVE语句1.hive复制表结构CREATE TABLE new_table LIKE old_table;CREATE TABLE adm_d05_content_log_di_olap_test LIKE adm_d05_content_log_di;CREATE external TABLE adm.adm_d05_content_log_di_olap_test LIKE adm.adm_d05_content_log_di location 'hdfs://ns8/user/dd_e

2020-12-12 21:08:20 1764

原创 Clickhouse中对表的基本操作（增加、删除、修改列等）

1.CK中添加列：ALTER TABLE 表名称 ON 集群名称 ADD COLUMN 列名称类型 DEFAULT 注解eg：ALTER TABLE 表名称 ON CLUSTER ZYX_CK_Pub_061 ADD COLUMN lvl Int32 DEFAULT 'lvl'2.CK中修改注释：alter table 表名称 ON 集群名称 COMMENT COLUMN 列名称注解;alter table adm_sch_d05_content_live_service_di_local ON C

2020-12-12 21:04:02 36310 2

原创 hive mapjoin

select t1.a,t1.b from A join B on ( A.a=B.a and A.lD=20201190)该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有10亿行记录，在运行过程中特别的慢。MAPJION会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，而普通的 join则是类似于mapreduce模型中的file join，需要先分组，然后再reduce端进行连接，使用的时候需要结合着场景；由于map..

2020-08-11 23:10:20 226 1

原创数据库SQL中求平均函数avg对于值为NULL和值为0的计算区别

a b 3 3 2 2 0 NULL 4 4 具体如表所示对a求平均：avg(a)=(3+2+0+4）/4=9/4 对b求平均：avg(b)=(3+2+4）/3=9/3结论：avg求平均时自动去除NULL

2020-08-08 21:20:24 4028

原创 Hive中4个By Sort By 、Order By、Distrbute By、 Cluster By区别

1）SortBy：分区内有序；2）Order By：全局排序，只有一个Reducer；3）Distrbute By：类似MR中Partition，进行分区，结合sort by使用。4）Cluster By：当Distribute by和Sorts by字段相同时，可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。...

2020-08-08 21:14:42 1349

原创 Hive中内部表和外部表区别

1）内部表：当我们删除一个内部表时，Hive也会删除这个表和数据。2）外部表：删除该表并不会删除掉原始数据，删除的是表的元数据。

2020-08-08 21:11:17 265

原创 Hive和传统数据库的区别

1）数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2）数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的， 3）执行延迟Hive执行延迟较高。数据库的执行延迟较低。当然，这个是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势。4）数据规模Hive支持很大规模的数据计算；数据库可以支持的数据规模较小。...

2020-08-08 21:09:06 597

原创 SQL Select 语句完整的执行顺序:

from--->where--->group by--->having

2020-08-08 20:55:48 172

原创中铁笔试题火车空闲座位问题

题目如下：代码如下：import sysline1 = sys.stdin.readline().strip()W,M = list(map(int, line1.split()))arr=[]N=0for k in range(W): N+=karr=[]for i in range(N): arr.append(list(map(int,(sys.stdin.readline().strip().split()))))#print(arr)pr..

2020-06-12 16:08:59 742

原创红黑树

二叉查找树概念：1.左子树上所有结点的值均小于或等于它的根结点的值。2.右子树上所有结点的值均大于或等于它的根结点的值。3.左、右子树也分别为二叉排序树。下图为二叉查找树红黑树的概念：它一种特殊的二叉查找树。红黑树的每个节点上都有存储位表示节点的颜色，可以是红(Red)或黑(Black)。红黑树的特点：1.每个节点是黑色或者红色。2.根节点是黑色。3.每个叶子节点是黑色。4.如果一个节点是红色的，则它的子节点必须是黑色的。5.从一个节点到该节点的子孙.

2020-05-30 14:08:42 145

转载数据结构中B树和B+树的区别

转载链接：https://msd.misuland.com/pd/2884250171976189524B树和B+树数据结构及使用场景1.出现的原因我们已经知道他们两是mysql索引的数据结构，为什么要使用这种数据结构呢？我们知道内存读取效率远远高于磁盘IO的效率，当数据量大而不能完全存放于内存时，只能依靠磁盘了，一次存放于磁盘页中，每个磁盘页对应一个树的节点。也就是说只要我们能减少磁盘IO的次数，那么查询效率就会显著提高。如何减少?B树就是通过降低树的深度，将二叉树的“瘦高”变成“矮胖

2020-05-25 22:32:55 861

原创操作系统中作业的调度算法

选择调度方式和调度算法的若干准则1．面向用户的准则 (1) 周转时间短。周转时间是指从作业被提交给系统开始，到作业完成为止的这段时间间隔(称为作业周转时间)。包括四部分： 1、作业在外存后备队列上等待(作业)调度的时间 2、进程在就绪队列上等待进程调度的时间 3、进程在CPU上执行的时间 4、进程等待I/O操作完成的时间。（a）周转时间 = 完成时刻－提交时刻（到达时间） ...

2020-05-24 17:26:43 8246

原创计算机网络的五层协议

1.物理层的基本概念：（在物理层上所传数据的单位是比特。物理层的任务就是透明地传送比特流）物理层的主要任务描述为确定与传输媒体的接口的一些特性，即：机械特性指明接口所用接线器的形状和尺寸、引线数目和排列、固定和锁定装置等等。电气特性指明在接口电缆的各条线上出现的电压的范围。功能特性指明某条线上出现的某一电平的电压表示何种意义。过程特性指明对于不同功能的各种可能事件的出现顺序。2.数据链路层的基本概念：（常简称为链路层，我们知道，两个主机之间的...

2020-05-23 22:50:33 3517 1

原创 for循环中break与continue的区别

break用于完全结束一个循环，跳出循环体执行循环后面的语句；而continue是跳过当次循环中剩下的语句，执行下一次循环。简单点说就是break完全结束循环，continue终止本次循环。eg:如果是break就直接到了语句：AAAAAAAA。如果是continue则会跳过本次循环，继续执行for语句。直到for循环结束才会执行AAAAAAAAfor i in range(len(nums)): if nums[i] > 0: break if .

2020-05-23 22:35:59 422

原创 HDFS的读写原理

1.HDFS的写入原理2.HDFS读数据原理注意第3步：我们会选取比较健全完好的存有block1、block2、block2的DataNode。下面的例子选取的是DataNode1和DataNode2.两个点满足3个数据块同时有。

2020-05-22 22:25:36 194

转载 Shell常用工具find，grep，sed，awk命令

声明：此篇文章为转载具体链接：https://www.cnblogs.com/pengpp/p/9469544.htmlShell常用工具find，grep，sed，awk，xargs命令最近学习shell命令，对grep，sed，awk命令有点混乱，故小结一下，巩固一遍。注意：find , grep , sed, awk可使用基本正则表达式字符，find，grep，awk也支持扩展的正则表达式元字符，grep使用扩展正则必须结合-E或直接使用egrep命令。基本正则表达式元字符有：*

2020-05-22 21:20:07 459

原创 Shell常用工具 awk

awk 是一个功能强大的编辑工具，逐行读取输入文本，并根据指定的匹配模式进行查找，对符合条件的内容进行格式化输出或者过滤处理。awk 选项 '模式或条件 {编辑指令}' 文件默认为“空格”间隔，可以通过-F 来指定间隔。awk 借用 shell 中类似于位置变量的方法，用$1、$2、$3„顺序地表示行（记录）中的不同字段。另外 awk 用$0 表示整个行（记录）。不同的字段之间是通过指定的字符分隔。awk 默认的分隔符是空格。eg:文件123.txt1|2|3|r3|4|f|6.

2020-05-22 21:06:31 267

原创二叉树

1.二叉树概念2 二叉树的特点1）树执行查找、删除、插入的时间复杂度都是O(logN)2）遍历二叉树的方法包括前序、中序、后序3）非平衡树指的是根的左右两边的子节点的数量不一致4）在非空二叉树中，第i层的结点总数不超过 , i>=1；5）深度为h的二叉树最多有（2的n次方-1）个结点(h>=1)，最少有h个结点；6）对于任意一棵二叉树，如果其叶结点数为N0，而度数为2的结点总数为N2，则N0=N2+1；...

2020-05-22 20:49:38 257

原创 jvm的内存结构

java虚拟机的内存结构分为堆(heap)和栈(stack)堆里面存放是对象实例也就是new出来的对象。栈里面存放的是基本数据类型以及引用数据类型的地址。对于所谓的常量是存储在方法区的常量池里面。...

2020-05-21 22:33:39 121

原创 List和Set以及map的区别（图解）

list和set的区别：如下图所示：list中可以有重复元素，set中不可以。具体解释：1.list：ArrayList和LinkedList是我们常用的数据结构，它们都是线性表，ArrayList是顺序存储的线性表，LinkedList是链式存储的线性表。LinkedList:LinkedList是一个双向链表, 当数据量很大或者操作很频繁的情况下，添加和删除元素时具有比ArrayList更好的性能。但在元素的查询和修改方面要弱于ArrayList。ArrayL..

2020-05-21 22:16:34 1649 1

原创 java的基本数据类型

java的基本数据类型数据类型大小byte(字节) 1(8位)shot(短整型) 2(16位)int(整型) 4 (32位)long(长整型) 8(32位)float(浮点型) 4(32位)double(双精度) 8(64位)char(字符型) 2(16位)boolean(布尔型) 1位...

2020-05-21 21:08:40 123

原创 Hashtable与HashMap的区别（图文详解）

1.HashMap的数据结构：HashMap实际上是一个“链表散列”的数据结构，即数组和链表的结合体。如下图，HashMap底层就是一个数组结构，数组中的每一项又是一个链表。当新建一个HashMap的时候，就会初始化一个数组。并允许使用null值和null键。具体的数据结构图如下图所示，由数组和链表构成。允许使用为null的键和值。2.HashTable概述：和HashMap一样，HashTable也是一个散列表，它存储的内容是键值对映射。HashTable继承于Dictionar.

2020-05-21 21:05:54 2106

原创排序数组去重

给定一个排序数组，你需要在原地删除重复出现的元素，使得每个元素只出现一次，返回移除后数组的新长度。不要使用额外的数组空间，你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。给定数组 nums = [1,1,2],函数应该返回新的长度 2, 并且原数组 nums 的前两个元素被修改为 1, 2。你不需要考虑数组中超出新长度后面的元素。给定 nums = [0,0,1,1,1,2,2,3,3,4],函数应该返回新的长度 5, 并且原数组 nums 的前五个元素被修改为..

2020-05-19 17:38:20 650

原创 Hive中行，列互换

表AID num 1 2 1 3 1 4 2 6 2 8 ...

2020-04-14 15:28:36 283

原创 matplotlib中显示汉字，坐标轴，作图，图例显示

#复式折线图： x_data = ['top5','top10','top15','top20','top25'] y_data = [58000,60200,63000,71000,84000] y_data2 = [52000,54200,51500,58300,56800] plt.title(u"模型分析") plt.xlabel...

2020-02-29 22:14:58 3259

原创 django'ForeignKey' object has no attribute 'rel'

报错：修改：原来语句：原语句if field.rel.limit_choices_to:修改后：将rel修改为 remote_fieldif field.remote_field.limit_choices_to:

2020-02-04 15:12:29 1082

原创 one-hot 编码 preprocessing.OneHotEncoder()

from sklearn import preprocessingenc = preprocessing.OneHotEncoder()enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) enc.transform([[0, 1, 3]]).toarray()有3列，每列为一个特征：0 0 3 1 ...

2019-12-29 20:05:47 1815

转载 xadmin显示及重写xadmin

我自己重写的方法：（这个方法并没有改变）def __unicode__(self): return self.username参看下面的链接用：（这个方法解决）def __str__(self): return self.name参考链接：https://blog.csdn.net/qq_34964399/article/details/80303544...

2019-11-10 18:38:16 313

原创微店校招算法笔试题 2019 字符串匹配 python

例子：s1长度大s2，只要s1包含s2里所有的就为true，否则flase(要求时间复杂度和空间复杂度最优）s1:asdfghjkls2:hjkl输出：trueimport sysdef sume(l1,l2): count=0 for i in range(len(l2)): if l2[i] in l1: count=c...

2019-11-06 20:10:06 455

原创 django2集成xadmin list index out of range报错追踪和处理

第一种解决方法：参考：https://blog.csdn.net/sethcss/article/details/79768170input_html = [ht for ht in super(AdminSplitDateTime, self).render(name, value, attrs).split('/><') if ht != '']input_html[0]...

2019-11-04 20:30:42 187

转载 Django2.1集成xadmin管理后台所遇到的错误

https://www.cnblogs.com/xingfuggz/p/10142388.html

2019-11-04 16:50:00 170

转载 UnicodeDecodeError: 'gbk' codec can't decode byte 0xa4 in position 3444: illegal multibyte sequence

https://blog.csdn.net/qingche456/article/details/58279692

2019-11-03 21:14:05 1269

转载 (1452, 'Cannot add or update a child row: a foreign key constraint fails (`test`.`django_admin_log`,

https://www.cnblogs.com/zhanghongqi/p/11284208.html

2019-11-03 20:39:12 420

转载 init() missing 1 required positional argument: 'on_delete'

参考https://www.cnblogs.com/phyger/p/8035253.html

2019-11-03 19:05:04 1601

空空如也

空空如也