
大数据
文章平均质量分 54
programmer_trip
这个作者很懒,什么都没留下…
展开
-
zookeeper工具书 - (zkCli常用命令 + 四字命令)
zookeeper工具书:zkCli常用命令 + 四字命令 结合官方介绍并结合个人实践 整理的常用命令可以作为zk工具进行查阅,部分命令在高版本的zk才有,需要注意原创 2022-08-28 20:33:04 · 6441 阅读 · 0 评论 -
flink 批处理和流式 wordcount
flink 流批wordcount原创 2022-08-12 08:00:00 · 529 阅读 · 0 评论 -
centos下安装nginx
nginx手动安装;编译安装4 执行configure命令,生成makefile,为编译做准备5 执行make命令进行编译6 执行make install命令安装7启动nginx8 访问nginx到这里nginx就安装成功了原创 2022-06-28 23:07:22 · 548 阅读 · 0 评论 -
使用kvm创建三台能通局域网的虚拟机
使用kvm创建三台能通局域网的虚拟机原创 2022-06-01 23:44:45 · 950 阅读 · 0 评论 -
sql需求处理篇-统计指定某年中有多少个周一至周日
需求描述统计某一年中周一至周日分别有多少天with date_list as( select date_add("2020-01-01", a.pos) as dates from (select posexplode(split(repeat("m", datediff("2020-12-31", "2020-01-01")), "m"))) a)select datesfrom date_list ;----2020-01-012020-01-022020-0原创 2022-04-21 21:54:44 · 558 阅读 · 0 评论 -
使用poi工具将sql查询结果写入excel文件(报表的导出数据功能)
这里以查询mysql数据并导出为excel为例子关于创建数据库及表数据导入这里没讲,可以自行创建和插入测试数据这里用到的数据库是poimysql表为test1 首先创建一个maven项目 demo_poi2 pom.xml中引入mysql连接的驱动包,以及poi需要使用的jar包<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-jav原创 2022-02-09 09:00:00 · 612 阅读 · 0 评论 -
clickhouse直连mysql
遇到了一个这样的需求,报表上展示超时的订单信息部门,统计日期,超时订单编号,订单计划开始/结束时间 订单实际开始/结束时间这里需要让业务方当其认为这条记录不是真的超时时,为这条记录打上一个不纳入统计的标签,如果业务方选择了隐藏,那么这部分打上标签的数据就不会纳入统计,如果没有点隐藏按钮就不会受影响,打标签前怎么统计就怎么统计。目前的解决方案是:前端在页面交互时通过业务方输入的内容将带标签信息写入mysql表,使用clickhouse直连mysql提供接口查询服务。如果有更好的设计方案也欢迎交流???原创 2021-07-01 00:18:01 · 1345 阅读 · 0 评论 -
树莓派配置静态ip
通过ifconfig -a 可以查看所有的网卡信息[root@localhost ~]# ifconfig -aeth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> inet 192.168.xxx.xxx netmask 255.255.255.0 broadcast 192.168.xxx.255lo: flags=73<UP,LOOPBACK,RUNNING> inet 127.0.原创 2021-06-30 00:18:31 · 657 阅读 · 0 评论 -
hive分区表新增字段并且新增字段的数据要写入当前和历史分区三种方法
由于之前的工作中就算是分区表中插入字段,也是只对当前数据负责,不需要管历史数据,所以没考虑过如果加字段之后,对历史分区如何插入数据的问题,直到一次面试,面试官问了这个问题,我决定用博客的形式记录下来,下面是加字段加不加cascade关键字的区别-- 内容准备test_partition.txt -- 历史分区没有新增字段1 zhangsan 1000 202101012 lisi 500 202101013 wangwu 6000 202101014 zhaoliu 4600 20210101原创 2021-05-09 17:00:23 · 3341 阅读 · 3 评论 -
flink运行job任务时报错 Could not retrieve the execution result
flink运行job任务时报错org.apache.flink.client.program.ProgramInvocationException: Could not retrieve the execution result. (JobID: ed150cf006f7e66ebe74c75f72431463) at org.apache.flink.client.program.rest.RestClusterClient.submitJob(RestClusterClient.jav原创 2020-10-13 15:25:01 · 5731 阅读 · 0 评论 -
azkban的配置及实战
azkaban的配置①将以下三个jar包上传到linux系统中 /root/software/azkaban-executor-server-2.5.0.tar.gzazkaban-sql-script-2.5.0.tar.gzazkaban-web-server-2.5.0.tar.gz②在/usr/local下创建azkaban目录mkdir /usr/local/azkaban③将三个jar包解压到/usr/local/azkaban下tar -zxvf azkaban-exec原创 2020-07-23 02:08:44 · 583 阅读 · 0 评论 -
数仓dwd层事件日志dwd_base_event_log解析生成若干表
需要创建的表dwd_display_log 商品点击表dwd_newsdetail_log 商品详情页表dwd_loading_log 商品列表页表dwd_ad_log 广告表dwd_notification_log 消息通知表dwd_active_background_log 用户后台活跃表dwd_comment_log 评论表dwd_favorites_log 收藏表dwd_praise_log 点赞表dwd_error_log 错误日志表商品详情页表#创建表dwd_new原创 2020-07-21 20:28:37 · 399 阅读 · 0 评论 -
kafka集群的安装及启停
kafka_2.11-2.1.1.tgz 下载地址:http://kafka.apache.org/downloads.html安装步骤①解压到/usr/local 目录下tar -zxvf kafka_2.11-2.1.1.tgz -C /usr/localkafka的目录如下②更名(这一步如果存在多个版本的kafka,则最好保留版本号最为不同版本的区分)#进入/usr/local/kafka_2.11-2.1.1cd /usr/local/kafka_2.11-2.1.1mv kaf原创 2020-07-15 01:32:08 · 319 阅读 · 0 评论 -
nginx安装异常:nginx-1.18.0-1.el6.ngx.x86_64 (nginx)需要:libpcre.so.0()(64bit)
[root@qianfeng01 ~]# yum -y install nginx已加载插件:fastestmirrorLoading mirror speeds from cached hostfile * base: mirrors.aliyun.com * extras: ftp.sjtu.edu.cn * updates: mirrors.aliyun.com正在解决依赖关系--> 正在检查事务---> 软件包 nginx.x86_64.0.1.18.0-1.el6.ng原创 2020-07-07 17:11:35 · 4333 阅读 · 1 评论 -
Hive的开窗函数小结以及利用排名函数查询topN例子
开窗函数的关键字是 over,一般用在聚合函数的后面开窗函数与group by 的比较开窗函数用于计算基于组的某种聚合值,并且对每个组返回多行,但是group by 一个组只返回一行over() 不加参数,窗口大小为所有行over(partition by 字段) 窗口大小为所在分区的大小over(partition by 字段 order by 字段 [asc/desc]) 窗口大小为分区内的第一行一直到当前行over(distribute by 字段 sort by 字段 [asc/d原创 2020-07-01 21:20:11 · 1170 阅读 · 0 评论 -
hive自定义函数UDF案例
一·定义一个可以通过指定格式字符串变成map,然后通过第二个参数作为key,返回key对应的value的方法getValue示例:name=zhangsan&age=18&habits=eatpackage programmer.homework.day07.work.complex.map;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;原创 2020-07-01 19:55:36 · 914 阅读 · 0 评论 -
vscode如何将tab键的表现形式修改为箭头
vscode中将tab键的表现形式改为 -> 的解决方式(注意不是 四个点 …):①ctrl + shift + p ,在出现的输入框中输入settings,点击Open Settings (Json)②进入用户配置文件,在文件末尾添加"editor.insertSpaces": false别忘记上一条属性的结尾需要加 , 逗号,ctrl + s 保存文件③在vscode的文件中敲一个tab建,会发现已经是 -> 了,而不是四个点另外关于这个属性的规定在vscode的默认设置原创 2020-06-29 23:21:26 · 6339 阅读 · 0 评论 -
hive的动态分区表的创建及数据的导入
动态分区流程:①建一个动态分区表②建一个临时表(分区字段作为临时表的表内字段)③将数据导入临时表中④根据临时表中的数据含有的动态分区字段的值进行数据加载并动态分区-- 设置属性set hive.exec.dynamic.partition.mode=nonstrict; <----非严格模式下可以都是动态分区,而严格模式下必须至少有一个静态分区set hive.exec.dynamic.partition=true; 开启动态分区-- 创建动态分区表studentdrop t原创 2020-06-26 17:48:56 · 3335 阅读 · 0 评论 -
hadoop本地模式运行mapreduce报错解决(Exception in thread main ExitCodeException exitCode=-1073741701)
目录环境:问题:问题解决流程环境:操作系统:Windows10> hadoop : hadoop 2.7.6> IDE : idea 2020.1> JDK : javac #环境:操作系统:Windows10hadoop : hadoop 2.7.6IDE : idea 2020.1JDK : javac 1.8.0_191问题:在idea中使用hadoop本地模式运行一个mapreduce任务,抛出如下异常:Exception in thread "mai原创 2020-06-23 00:34:47 · 3022 阅读 · 2 评论 -
hadoop的shell命令总结(实践总结)
查看命令 -lshdfs dfs -ls 路径 查看该路径下的文件和目录,只看一层hdfs dfs -ls -R 路径 递归查看该路径下的所有目录和文件hdfs dfs -ls -h 路径 将文件或目录的大小以人类能够理解的方式呈现 K M等hdfs dfs -ls -d 路径 仅显示当前路径的文件或目录的信息创建目录 -mkdirhdfs dfs -mkdir 路径 创建单个目录 (路径可以为多个参数)hdfs dfs -mkdir -原创 2020-06-13 21:28:05 · 1667 阅读 · 0 评论 -
时间服务器的搭建
搭建时间服务器前准备工作:1.先准备三个虚拟机hdp01,hdp02,hdp032.三台虚拟机使用NAT网络模式,采用静态ip,分别是192.168.10.101,192.168.10.102,192.168.10.103,这三台虚拟机中都已经都有这这三台虚拟机主机和ip的映射关系3.选择一台虚拟机作为时间服务器,这里选择hdp014.在hdp01虚拟机中安装ntp.x86_64#先查看hdp01中是否已经安装了ntp.x86_64yum list installed | grep ntp#如原创 2020-06-07 22:10:29 · 3185 阅读 · 0 评论 -
超详细的hadoop完全分布式集群的搭建
HDFS (hadoop distributed file system) : hadoop分布式文件系统环境:这是学习使用的,因为用虚拟机,通过root用户进行搭建一.创建一个虚拟机 had01 ,网络连接方式均为NAT模式搭建步骤:首先创建一个hdp01原创 2020-06-05 23:03:39 · 5204 阅读 · 6 评论