大数据
福尔摩斯之无以伦比
这个作者很懒,什么都没留下…
展开
-
提升数据开发的效率
如何提高数据开发的效率原创 2022-12-22 16:19:33 · 240 阅读 · 0 评论 -
Presto 时间、日期及计算相关日期
由于工作中在数据迁移,大数据平台数据查询引擎使用Presto,和传统的数据库时间函数有区别,整理一版,供大家参考,一起学习,有错误欢迎指正。1、查询当前日期 select current_date;2、查询当前时间 select current_timestamp; _col0 --------------------------------------- 2022-01-02 20:45:58.551转载 2022-12-06 15:56:59 · 7425 阅读 · 2 评论 -
EXCEl设置图标坐标轴的单位
1.点击需要调整坐标单位的位置,选择页面右侧属性对话框的”坐标轴“菜单,在显示单位选择需要的单位;原创 2022-08-25 19:14:28 · 1556 阅读 · 0 评论 -
Hive in exists 区别
IN适合于外表大而内表小的情况;EXISTS适合于外表小而内表大的情况转载 2022-08-11 16:17:58 · 665 阅读 · 0 评论 -
excel 将科学计数法的格式换成文本
如果处理科学计数法转文本的问题原创 2022-07-13 21:33:01 · 8997 阅读 · 0 评论 -
excel打开的数据位数大的会变的科学记数法怎么解决
1.新建空白excel2.菜单:数据-》导入数据3.设置导入数据的类型为文本设置逗号分隔选择需要转化的设置成文本格式并完成原创 2022-03-16 21:09:30 · 441 阅读 · 0 评论 -
hive 如何解决到处数据限制
mysql可以通过分页方式批量导出数据,但是hive没有分页功能,如何面对大数据查询平台导出条数限制的问题呢?1.增加行号字段 row_number() over( order by key_id desc) rk2.根据行号分页分批导出 where rk>=100000 andrk<=200000...原创 2022-03-16 21:01:56 · 2904 阅读 · 0 评论 -
jupyter 执行代码出现ModuleNotFoundError: No module named pandas 问题
正常出现这个问题,通过pip install pandas 就能解决,但是安装完之后还是出现相同的问题,后来在网上说的原因是jupyter的环境变量python的路径和pip的安装的路径不一致,通过import sysprint(sys.path)输出python的目录的版本和在命令行输出的python的版本不一致。解决方法一:是修改python环境变量解决方法二:指定和jupyter输出的python版本安装pandas,比如,我的是python3.9 , ...原创 2022-02-17 16:16:41 · 4831 阅读 · 0 评论 -
Hive explain详解
HiveQL是一种声明式语言,用户会提交声明式的查询,而Hive会将其转换成MapReduce job。使用EXPLAIN可以帮助我们学习Hive是如何将查询转换成MapReduce任务的。在查询语句前面加上explain关键字,可以看到查询计划和其它一些信息。这个查询本身是不会执行的。一个Hive任务会包含一个或者多个stage(阶段),不同的stage会存在依赖关系。越复杂的查询会引入越多的stage,同样耗时也会越多。一个stage可以是一个MapReduce任务,也可以是一个抽象阶段,或转载 2022-02-17 15:57:43 · 543 阅读 · 0 评论 -
pycharm 创建spark的python开发环境
1.安装pycharm,python 进入pycharm官网,点击downloadpython根据自己的需求进行安装,python2和python3的差异还是有点大进入python官网,点击下载2.安装pyspark根据spark的部署版本下载相应的版本pip3 install pyspark==版本号我们的环境用的是python3的,所以这里是pip3,python2 的这里用pip3.异常处理在安装pysaprk 的时候会报错找不到这个版本解决方...原创 2021-09-01 21:33:20 · 212 阅读 · 0 评论 -
Lateral View语法
描述lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。例子假设我们有一张表pageAds,它有两列数据,第一列是pageid string,第二列是adid_list,即用逗号分隔的广告ID集合:string pageid Arra.转载 2021-05-08 10:35:38 · 2137 阅读 · 0 评论 -
Hive文件格式(表stored as 的五种类型)
hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)5、PARQUET1、其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE,PARQUET格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后再从表中用insert导入SequenceFile...转载 2021-04-16 16:29:55 · 269 阅读 · 0 评论 -
hive sql count(*) count(1) count(字段)
1、count(*)、count(1): count(*)对行的数目进行计算,包含NULL,count(1)这个用法和count(*)的结果是一样的。 如果表没有主键,那么count(1)比count(*)快。表有主键,count(*)会自动优化到主键列上。 如果表只有一个字段,count(*)最快。 count(1)跟count(主键)一样,只扫描主键。count(*)跟count(非主键)一样,扫描整个表。明显前者更快一些。 count(1)和count(*)基本没有差别,转载 2021-04-12 20:43:03 · 2092 阅读 · 0 评论 -
Hive中使用 with as 优化SQL
背景:当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级多个地方存在重复使用的情况,这个时候我们可以使用 with as 语句将其独立出来,极大提高SQL可读性,简化SQL~注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持!2019-05-31更新:MySQL8.0大量更新优化,支持Common table expressions,即支持 with 语法!一、介绍with as 也叫做子查询部分,首先定义一个sql片段转载 2021-04-12 20:40:49 · 634 阅读 · 0 评论 -
flink MapState 更新存储对象问题
在使用flink中的状态管理器时,由于需求背景我选用了MapState存储结构,但是在使用过程中发现修改存储对象的时候并没有MapState中的值并没有自动更新,这让我产生了很大的疑惑,看官方文档和flink源码中我都一直把MapState认为是类似于Map结构的,那自然认为修改里面的存储对象时整个map会自动更新,但是实际使用和测试下来确发现不是这样。先贴一段官方文档:MapState<UK, UV>: This keeps a list of mappings. You can pu转载 2021-02-24 10:49:37 · 955 阅读 · 0 评论 -
数据仓库建设之数据规范(一)--sql编码规范
1.编码原则 (1)功能完善:结果输出正确。(2)执行效率最优:代码优化的方法。(3)可读性强:复杂的处理加上注解,代码结构整齐。(4)统一缩紧单位:4个空格为一个缩紧单位。(5)尽量不使用select*,需要明确指定列名。(6)对应的括号使用在同一列上对齐。2.编码规范 (1)增加头部注释,模版如下: ...原创 2021-02-18 15:36:44 · 819 阅读 · 0 评论 -
Flink 整合 Kafka (实现 Exactly-Once)
1.什么是Exactly-Once恰好处理一次的意思。不管在处理的时候是否有异常发生,计算的结果都一样。即使在发现机器或者软件故障时,都不会出现数据丢失以及重复处理的情况。(就是每条数据只会被处理一次)Flink 中哪些Source、Sink支持 Exactly-Once 呢,Flink官方文档(链接)为我们做了描述。如下图所示:Source:Sink:我们发现很多都是at least once(至少一次),我们可以基于幂等操作(幂等操作的特点是...转载 2021-01-07 11:04:02 · 1304 阅读 · 4 评论 -
Flink系列:自定义map Function
转载 2020-12-27 14:23:43 · 900 阅读 · 0 评论 -
flink深入研究(08) flink的StreamExecutionEnvironment.execute()函数调用过程02
上一篇我们讲到了ClosureCleaner的clean函数,这一篇我们继续往下分析,在clean函数中又调用了另外一个clean函数clean(func, level, checkSerializable, Collections.newSetFromMap(new IdentityHashMap<>()));代码如下: private static void clean(Object func, ExecutionConfig.ClosureCleanerLevel l...转载 2020-12-27 14:22:36 · 718 阅读 · 0 评论 -
NoSuchMethodError 发生原因和解决办法
当应用程序试图调用类(静态或实例)的指定方法,而该类已不再具有该方法的定义时,就会抛出 java.lang.NoSuchMethodError 错误。简单地说,就是同一个 Class 有多个版本的实现,并且在运行时调用了缺少方法的那个版本。本文总结了 NoSuchMethodError 常见原因及其解决方法,如有遗漏或错误,欢迎补充指正。运行时抛出 NoSuchMethodError 的根本原因是什么?在实际生产系统中,我们主要关注运行时抛出的 NoSuchMethodError 错误,..转载 2020-12-17 16:54:38 · 934 阅读 · 0 评论 -
幂等的实现方案
背景在软件系统的开发过程中,我们可能有如下需求:创建业务订单,一次业务请求只能创建一个; 单个订单请求调用支付接口,当遇到网络或系统故障请求重发,也应该只支付一次; 单个订单完成时,给用户发送消息应该只发一次;等等很多情况下,都需要幂等的特性来支持。幂等的概念幂等(idempotence)一词原为数学上的概念,用一个最直观的数学式子表达为:f(f(x)) = f(x)对应到软件开发领域,即为同样的请求被执行一次与连续执行多次的效果是一样的,服务器的状态也是一样的,实际上就是接口转载 2020-12-15 20:15:48 · 311 阅读 · 0 评论 -
flink 的NoSuchFieldError: HALT_ON_FATAL_ERROR异常解决方法
启动flink,通过yarn管理集群,报以下错误:org.apache.flink.runtime.entrypoint.ClusterEntrypointException: Failed to initialize the cluster entrypoint YarnJobClusterEntrypoint. at org.apache.flink.runtime.entrypoint.ClusterEntrypoint.startCluster(ClusterEntrypoint...原创 2020-12-03 20:24:00 · 1032 阅读 · 0 评论 -
JMeter篇01:JMeter在Mac下的安装
其实不论操作系统是Windows、Unix(如Mac OS)、Linux(如Ubuntu)等,JMeter所需要的基础环境配置都是类似的,本文介绍JMeter for MAC的安装与环境配置。JMeter安装步骤如下:安装JDK 安装JMeter1、选择版本截止2018年10月,JMeter的最新版本是5.0,JMeter 5.0需要Java 8、Java 9,所以我们最终选择的版本是:Java 8,下载地址,历史版本下载地址 JMeter 5.0,下载地址,历史版本下载地址2、安装转载 2020-12-02 14:19:52 · 309 阅读 · 0 评论 -
hbase 写入数据时value=\x00\x00\x00\x03问题解析
写hbase 的数据类型和读的数据类型不同例如:写进去是Int ,读的是string类型解决方法:读写的类型一致,如果写入数据类型需要由int 转化string ,不要用 .tostring,换成 String.valueOf(字段)原创 2020-11-30 17:41:47 · 1807 阅读 · 0 评论 -
hbase 命令
hbase 命令http://c.biancheng.net/view/6531.html原创 2020-11-25 14:14:31 · 82 阅读 · 0 评论 -
flink 踩坑之旅
1.Flink 提交任务 java.lang.ClassCastException LinkedMap解决方法 在flink-yarn.yaml配置文件增加classloader.resolve-order:(空格)parent-first注意:需要增加在:和值之间增加空格原创 2020-11-19 16:19:32 · 362 阅读 · 2 评论 -
hbase org.apache.hadoop.hbase.security.AccessDeniedException: Insufficient permiss解决方法
hbase shell 创建表的时候提示org.apache.hadoop.hbase.security.AccessDeniedException: Insufficient permiss,原因是用户bigdata的用户没有权限登陆hbase shellgrant <user> <permissions> [<table> [<column family> [<column; qualifier>]]1.给用户授权g..原创 2020-11-18 17:53:16 · 2452 阅读 · 0 评论 -
数据仓库--数据质量
数据质量包括1.一致性。2.准确性。3.及时性。4.完整性。原创 2020-02-24 10:53:37 · 206 阅读 · 1 评论