- 博客(112)
- 收藏
- 关注
原创 hive所有窗口函数详情总结
开窗函数用于为行定义一个窗口(指运算将要操作的行的集合),它对一组值进行操作,不需要使用 Group By 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。percent_rank :窗口内当前行的RANK值-1/窗口内总行数-1(这里的rank值就是指的是rank 函数的的返回值)有3条排在第1位时,排序为:1,1,1,2······有3条排在第1位时,排序为:1,1,1,4······这个函数赋予唯一的连续位次。例如,有3条排在第1位时,排序为:1,2,3,4······
2023-08-02 14:28:39
1638
2
原创 hive函数大全
context_ngrams(array>) arr,array< string>,int k) — 在第一个参数集合里,第二个参数中指定单词之后的单词出现频次,倒序取TOP K,第二个参数指定一个单词字符串,该字符串指定n-gram元素的位置,其中一个null代表必须由n-gram元素填充的“空白”jsonStr是包含JSON数据的字符串,key1,key2等是我们要获取的JSON对象的键,如果我们查询的键不存在,json_tuple函数将返回NULL。
2023-07-31 11:20:33
756
1
原创 Python爬虫之re模块 笔记
文章目录正则基础正则常用元字符正则基础之——捕获组(capture group)爬虫最常用的两种匹配模式懒惰匹配贪婪匹配正则基础正则常用元字符字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,‘n’ 匹配字符 “n”。’\n’ 匹配一个换行符。序列 ‘\’ 匹配 “” 而 “(” 则匹配 “(”。^匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 ‘\n’ 或 ‘\r’ 之
2022-02-22 09:14:08
204
原创 hive/odps等with as 的插入语法、lateral view 侧视图与explode、json_tuple
文章目录Oracle中则可以将插入语句放在开头lateral view 几种用法lateral view 除了explode还有json_tupe等函数联用with a as (select * from test),b as (select * from test2)insert into/overwrite table select * from a join b on a. id =b.idOracle中则可以将插入语句放在开头insert into/overwrite tab
2021-11-04 20:33:35
2273
原创 mysql字符串转数字(去除小数点后面多余的0)
文章目录字符串转数字正常的字符串数字直接转字符串中含有字母字母在开头字母在数字中间字母在末尾总结去除小数点后多余的0字符串转数字正常的字符串数字直接转mysql> select '123'+123;+-----------+| '123'+123 |+-----------+| 246 |+-----------+1 row in set (0.00 sec)字符串中含有字母字母在开头mysql> select 'aa123'+123;+--------
2021-10-29 11:34:43
3386
原创 hive窗口函数 设置开窗聚合大小(默认是从头到当前行)
文章目录案例所有行相加组内数据相加起始行到当前行当前行的上一行到当前行当前行的上一行到当前行的下一行当前行和后面所有行案例现在有一张案例表selelct * form aa;所有行相加select sid ,sum(tid)over(partition by sid ) as count from aa;结果如下:组内数据相加select sid ,sum(tid)over(partition by sid order by tid) as count from aa;起始
2021-10-27 11:41:05
1050
原创 mysql5.7可以在group by 、having、order by中使用别名,但是有where 不可以
在 group by 、having、order by 可以使用别名 示例:select count(1) a,substr(landlord_name,1,2) as c from mjc_lease_details dGROUP BY c having c like '丁%' order by c等价于select count(1) a,substr(landlord_name,1,2) as c from mjc_lease_details dGROUP BY substr(landlor
2021-10-19 20:18:41
534
原创 安装 虚拟机报错:failed to install USB in file。。。。
这个报错一般是之前的VMware没有卸载干净,或者之前安装别的版本到一半退出了**总结:**就是电脑中存在残留文件,需要完全清楚这些文件解决方法:最简单的方法,区官方下载最新版本的VMware,他会自己覆盖或者删除之前遗留的文件,所以直接安装最新版本的VMware。方法二:推荐一篇博客...
2021-09-06 17:16:53
5918
原创 hadoop总结
一、hadoophadoop4v特点流量大速度快多样化价值密度低来自于Goole的bigtalbe论文2、大数据开源框架Apache 公司的顶级开源,为了解决大数据分布式存储与分布式计算问题,而产生的一种开源框架。大数据分布式和传统分布式的区别:传统分布式比较依赖于每个节点的运行速度,哪台节点慢提升哪台节点的性能。大数据分布式使用空间换时间的方式,提升性能。核心组件:分布式存储框架:hdfs分布式计算框架:MapReduce分布式管理框架:yarn(hadoop2.x)二、h
2021-09-02 15:20:21
767
原创 窗口函数 rank、dense_rank和row_number的区别
–1、RANK()在计算排序时,若存在相同位次,会跳过之后的位次。例如,有3条排在第1位时,排序为:1,1,1,4······–2、DENSE_RANK()这就是题目中所用到的函数,在计算排序时,若存在相同位次,不会跳过之后的位次。例如,有3条排在第1位时,排序为:1,1,1,2······–3、ROW_NUMBER()这个函数赋予唯一的连续位次。例如,有3条排在第1位时,排序为:1,2,3,4······<窗口函数> OVER ( [PARTITION BY <列清单&
2021-07-30 21:35:30
793
转载 数据库CAP定理和BASE理论
CAP定理(CAP theorem)在计算机科学中, CAP定理(CAP theorem), 又被称作 布鲁尔定理(Brewer’s theorem), 它指出对于一个分布式计算系统来说,不可能同时满足以下三点:1、一致性(Consistency) (所有节点在同一时间具有相同的数据)2、可用性(Availability) (保证每个请求不管成功或者失败都有响应)3、分隔容忍(Partition tolerance) (系统中任意信息的丢失或失败不会影响系统的继续运作)CAP理论的核心是:一个分布
2021-07-18 00:19:00
164
原创 hive --上传自定义函数jar包创建函数
@TOC打jar包或者通过命令行的方式apacheMaven +install找到jar包上传到虚拟机创建函数创建临时函数这种方式当前hive会话关闭就不可使用了创建永久函数将jar包上传到hdfs上然后hive中创建永久函数语法: create function 自定义函数名 as ‘jar包类的路径’ usering jar +hdfs路径然后就可以使用了...
2021-07-17 19:41:25
635
2
原创 hive --自定义函数之UDAF和UDTF
@TOCUDAF自定义求平均值package cn.kgc.kb11.gudaf;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.parse.SemanticException;import org.apache.hadoop.hive.ql.udf.generic.GenericUDAFAverage;import org.apache.hadoop.hive.
2021-07-17 19:02:34
294
原创 hive --自定义函数之udf
这里写目录标题UDF:自定义标准函数(实际使用最多)UDAF:自定义聚合函数UDTF:自定义表生成函数UDF:自定义标准函数(实际使用最多)UDAF:自定义聚合函数package cn.kgc.kb11.gudaf;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.parse.SemanticException;import org.apache.hadoop.hiv
2021-07-17 18:58:32
189
原创 Tomcat报错: java.rmi.server.ExportException: Port already in use: 1099; nested exception is: java.net.
文章目录报错解决方法方法一方法二报错报错信息: java.rmi.server.ExportException: Port already in use: 1099; nested exception is: java.net.BindException: Address already in use: JVM_Bind这里说的是1099端口被其它进程占用了解决方法方法一将jxm port 改一下方法二找出占用1099端口的进程,进入windows命令,查看什么进程占用了1099端口使用
2021-07-16 14:52:14
542
原创 centos7安装mysql5.7
CentOS7 安装mysql(YUM源方式)1.下载mysql源安装包2.安装mysql源3.检查mysql源是否安装成功4.修改yum源 【可跳过】5.安装MySQL6.启动MySQL服务并设置开机启动7.端口开放8.修改root本地登录密码1)查看mysql密码2)连接mysql3)修改密码【注意:后面的分号一定要跟上】9.添加远程登录用户重置mysql密码1.下载mysql源安装包#如果没有wget,先安装 yum install -y wgetwget http://dev.mysql.co
2021-07-16 09:40:37
77
转载 mysql存储引擎
文章目录查看当前版本数据库支持哪些引擎MyISAMInnoDBMEMORYMERGEARCHIVE如何选择合适的存储引擎?查看当前版本数据库支持哪些引擎show create table account;MylSAM和InnoDB的区别1、MyISAM是非事务安全的,而InnoDB是事务安全的2、MyISAM锁的粒度是表级的,而InnoDB支持行级锁3、MyISAM支持全文类型索引,而InnoDB不支持全文索引4、MyISAM相对简单,效率上要优于InnoDB,小型应用可以考虑使用MyIS
2021-07-16 09:38:28
83
原创 hadoop伪分布安装(个人学习可以用伪分布)
文章目录解压安装修改配置文件core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlhadoop-env.sh配置环境变量格式化Hdfs启动hadoopJobHistory如果需要看工作日志解压安装tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gzmv hadoop-2.6.0-cdh5.14.2 hadoop:#重命名修改配置文件core-site.xml<configuration> <p
2021-07-16 09:38:11
165
原创 HTTP Status 406错误
报错:desawription The resource identified by ths requestis only capable of genercting responses with characterisis not acceptable accoving to the request"accepr"'henders解决方法这个问题最有可能的是忘记配置<!-- 设置使用注解的类所在的jar包 --> <mvc:annotation-driven /> .
2021-07-16 09:37:45
190
原创 mongodb基础使用(增删改查等)
mysqlmongodbdatabasesdatabasestablecollectionrowdocument(json=>bson>columnfieldjoin不支持show dbsuse kb11 #选择数据库db.createCollection("Students")#创建表db.createCollection("aabb") show tables #查看当前数据库的表show collecti...
2021-07-15 19:57:21
49
原创 mysql(5.6版本) 修改默认字符集
文章目录修改配置文件,默认生效打开my.cnf重启mysql命令设置,使用生效修改配置文件,默认生效打开my.cnf加入:default-character-set=uft8重启mysqlservice mysql restart命令设置,使用生效create database aa default-character-set=utf8;--只有这个数据库是utf-8...
2021-07-15 19:23:01
240
转载 Linux---日期格式
Linux—日期格式date命令查看时间不同格式如下:【注意date和参数之间是有空格】命令输出格式date +%Y%m%d20171224date +%F2017-12-24date +%y%m%d171224echo date -d yesterday +%Y%m%d20171223echo date -d -1day +%Y%m%d20171223date -d yesterday +%F2017-12-23date -d -
2021-07-15 18:12:50
942
原创 虚拟机互信(集群免密登录)
文章目录方法一1、设置主机名2添加各个主机的地址和主机名3、生成秘钥4、自己保存秘钥5、把自己的秘钥传给别人方法二方法一1、设置主机名hostname查看当前主机名 没有设置过应该是ip地址hostnamectl set-hostname 主机名 (修改主机的名称)2添加各个主机的地址和主机名vi /etc/hosts分发到其他节点scp /etc/hosts root@hadoop102:/etc/scp /etc/hosts root@hadoop100:/etc/3、生成秘钥
2021-07-15 18:09:36
296
原创 azkaban报错(Missing required property ‘azkaban.native.lib‘)
azkaban初次执行任务时报错Missing required property ‘azkaban.native.lib’解决方法到exec/plugins/jobtypes/commonprivate.properties文件中azkaban.native.lib=false然后重启web和exec如果没有报错。配置这项可能导致报错...
2021-07-15 17:10:13
195
原创 Linux初识
文章目录Linux文件系统常用目录Linux 目录操作命令Linux 文件操作命令Linux 文件编辑命令ViLinux用户/用户组Linux权限操作命令Linux赋权Linux文件系统常用目录 / :Linux系统根目录 /bin:系统启动时需要的执行文件(二进制) /dev:设备文件目录 /etc:操作系统的配置文件目录(防火墙、启动项) /home:用户信息存放的目录,用户的默认工作目录 /usr:程序和数据存放目录 ar:包含在正常操作中被改变的文件:假脱机文件、记录文件、加锁文件、
2021-07-15 16:52:57
42
原创 jdbc连接mysql --scala版本
文章目录MysqlUtil类调用MysqlUtil类package cn.kgcimport java.sql.{Connection, DriverManager, ResultSet}class MysqlUtil {}object MysqlUtil{ implicit class MySqlOp(obj:MysqlDemo){ private var driver="com.mysql.jdbc.Driver" private var url="jdbc:mys
2021-07-15 00:34:59
59
原创 scala ---不变、逆变、协变
在Scala中,所有输入参数都是逆变,所有输出都是协变package cn.kgcimport scala.runtime.Nothing$object ObjCovariant { class Animal{ def eat():Unit={ println("chidongxi") } } class Cat extends Animal{ override def eat(): Unit = { println("maokechi
2021-07-15 00:30:29
66
原创 scala隐式(方法、类、变量)
文章目录隐式隐式方法的定义隐式类的定义隐式变量的定义调用隐式隐式方法的定义 implicit def stringtoInt(value:String):Int=Integer.parseInt(value) implicit def doubletoInt(value:Double):Int=value.toInt implicit def inttoString(v:Int):String={ println("传入的数据是"+v) v.toString+"hhe:"+"
2021-07-15 00:15:14
117
原创 scala函数
文章目录命名方法函数柯里化匿名函数递归函数函数作为参数传递通过*来指定未知长度的参数函数至简原则命名方法def 方法名(参数名:参数类型[泛型]):返回类型={方法体} def sum(a:Int,b:Int):Int=a+b println(sum(1,9)) def minvalue(a:Int,b:Int): Unit ={ if (a>b) b else a } var result =minvalue(12,12) println(resul
2021-07-15 00:09:19
57
原创 mysql常用函数
文章目录一、数学函数二、字符串函数三、日期函数四、系统信息函数五、统计函数一、数学函数二、字符串函数三、日期函数四、系统信息函数五、统计函数count():一般使用 count(1) 来代替 count(*),也可以放字段...
2021-07-14 23:43:58
38
转载 yarn工作机制图流程详解
client->ResourceManager->app Manager->client->hdfs->app Manager->scheduler->app Manager->app master->hdfs->scheduler->app Manager->container->hdfs->运行->app Master->app Manager->hdfs->client1、Client端.
2021-07-14 22:54:24
199
原创 ssm框架之mybatis
文章目录简介mybatis入门示例和xml配置准备数据创建一个工程pom.xml创建resources资源文件夹在内创建database.properties文件创建mybatis-config.xml文件定义表所对应的实体类mbuser表mbrole表定义操作两张表的sql映射文件mbuser表的UserDao.xmlmbrole表的RoleDao.xml简介MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了
2021-07-14 21:57:19
126
2
原创 Oracle分区
select * from t_book;分区表–显示数据库所有分区表的信息:select * from DBA_PART_TABLES–显示当前用户可访问的所有分区表信息:select * from ALL_PART_TABLES–显示当前用户所有分区表的信息:select * from USER_PART_TABLES–显示表分区信息 显示数据库所有分区表的详细分区信息:select * from DBA_TAB_PARTITIONS–显示当前用户可访问的所有分区表的详细分区信息:
2021-07-14 01:10:07
72
原创 Oracle游标和存储过程
这里写目录标题游标显式游标for循环游标fetch 游标 loop循环fetch 游标while循环for循环游标加if判断隐式游标游标传值存储过程有返回值创建调用无返回值创建调用游标显式游标显式游标主要是用于对查询语句的处理,尤其是在查询结果为多条记录的情况下;for循环游标declare -- 定义游标 cursor c_job is --cursor 声明游标 select empno, ename, job, sal from SCOTT.EMP WHERE job='MANAGE
2021-07-14 01:00:03
1174
原创 Oracle 条件控制语句(循环/判断)和自定义函数小复习
文章目录自定义函数条件控制语句if else 条件语句if else if 语句loop 循环语句case when 选择语句while 循环语句for 循环语句自定义函数DECLARE num NUMBER:=1000; v VARCHAR2(32):=' oracle';BEGIN dbms_output.put_line('hello '||num||v);END;CREATE OR REPLACE FUNCTION myfunction return VARCHAR2 asB
2021-07-14 00:18:14
595
原创 Oracle常用函数及视图
文章目录字符操作函数数值函数日期准备表视图视图创建调用字符操作函数--1.向左补齐select name,lpad(name,4,'0')from kgc;--向右补齐select name,rpad(name,4,'0')from kgc;--大小写转换select name,lower(name) from kgc;select name,upper(name) from kgc;--首字母大写select name,initcap(name) from kgc;--求长度se
2021-07-13 22:58:25
346
原创 oracle 基础知识练习(自增长触发器,自定义函数)
文章目录创建用户解锁用户创建表空间自增序列触发器创建表和触发器自定义函数带参数的自定义函数,两种执行方式方式一方式二创建用户$ sqlplus / as sysdbaSQL> startupORACLE instance started.SQL> connect system@prodEnter password:Connected.SQL> create user gree identified by ok;User created.SQL> gran
2021-07-08 19:56:31
132
原创 oracle突然无法远程连接(报错:ORA-12537: TNS:connection closed)
文章目录报错起因解决方法报错起因之前一直用root用户启动的监听,但是Navicat一直报错: ORA-12537: TNS:connection closed后来发现一定要用oracle用户启动,才发现发现报错:TNS:permission denied解决方法先确保oracle安装的目录有权限 ,chown -R oracle:oinstall /oradata其次 /var/tmp 目录下有个隐藏的 .oracle文件夹,给其赋权cd /var/tmpchown ora
2021-07-08 10:13:32
2120
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人