haifeng112612-CSDN博客

原创 zeppelin with hive

@TOzeppelin with hive 执行聚合查询报错：java.lang.NoClassDefFoundError: org/fusesource/jansi/AnsiC命令如下：%hiveselect importdate, count(1) from str where importdate='2022-03-24' group by importdate报错如下：java.lang.NoClassDefFoundError: org/fusesource/jansi/Ansiat

2022-04-01 12:02:36 1919

原创 Linux：-bash: ls: command not found解决方式

原因：修改了 /etc/profile 文件，然后输入ls时报错-bash: ls: command not found只需在命令行执行export PATH=/bin:/usr/bin:$PATH

2021-10-24 21:00:13 2211

原创 mysql 5.7版本分组并排序，取第一条

5.7版本的mysql无法用窗口函数，不能直接做到分组后，组内排序，项目中为了获取每组的降序第一名，实现思路如下：上图是模拟数据，```sqlSELECT * FROM ( SELECT `name`, money, times FROM syc ORDER BY money DESC LIMIT 999999 ) a GROUP BY `name`以上代码执行结果：![在这里插入图片描述](https://img-blog.csdnimg.cn/c0b35abb8af0480a8

2021-08-11 20:07:51 1644

原创 hbase高可用配置参考

先启动zookeeper再启动hadoop要做免密钥,先前做过了,就忽略;配置文件:(conf/regionservers)node7-1:(conf/regionservers)node7-2:(conf/regionservers)node7-4:(conf/regionservers)配置文件:(conf/backup-masters);node7-2:(conf/backup-masters);(一定要用原来的配置文件复制一份(regionservers)node7-1:(con.

2021-05-27 17:39:56 200

转载 fatal: Authentication failed

就是一个github网站没法切换多个账号，我研究过hosts别名实现，发现并不能，另外开源中国的话应该可以,他现在有多个域名,,github我用nsloop只看到绑定了一个域名算了不长篇大论了,如果删除上面的信息然后切换为https登录输入账号密码。非ssh方式登录了,，还是不顶用就看看下面的。出现上面的原因大概是开源中国创建团队账号导致的问题,解决方法删除上面的内容也没啥用了.网上说了一些方法发现几乎没啥用，比如重置右键密码或者git remote -vgit remote remove

2021-05-26 15:26:24 4632

原创 Spark 处理实时数据，统计流量累计的思路

一、问题对实时流量日志过滤筛选商户流量，对每个商户的流量进行累计，统计商户实时累计流量。当时间超过24时时，重新统计当日商户的实时累计流量。二、实现步骤1、采用Spark Streaming读取Kafka中的实时日志流，生成DStream2、过滤其中的商户页流量，生成DStream[k,v] （注：k为shopid, v为pv）3、采用Spark Streaming中DStream[k,v]的mapWithState方法生成商户累计流量MapWithStateDStream4、通过调用Stre

2021-05-25 17:53:06 783

原创 spark streming kafka source

package com.jinghang.spark24.day06import java.utilimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.log4j.{Level, Logger}import org.apache.spark.streaming.dstream.InputDStreamimport org.apache.spark.streaming

2021-05-18 15:04:18 102

原创 mysql提示Got timeout reading communication packets、Got an error reading communication packets

1，数据包太大通信数据包是发送到MySQL服务器的单个SQL语句，发送到客户端的单个行或从复制源服务器发送到副本的二进制日志事件。可以传输到MySQL 5.7服务器或客户端或从MySQL 5.7服务器或客户端传输的最大数据包是1GB。当MySQL客户端或mysqld服务器收到大于max_allowed_packet字节的数据包时，它将发出 ER_NET_PACKET_TOO_LARGE错误并关闭连接。对于某些客户端，Lost connection to MySQL server during que

2021-05-16 11:11:22 6020 1

原创 mysql故障，出现内存溢出，连接断开

innodb_buffer_pool_size设置，6-10G都可以，一般为物理内存的60-80%，可以增强io的读写能力建议添加一个参数#最大连接数max_connections = 1000

2021-05-14 16:05:21 383

原创如何解决sqoop的数据传到一致性

如Sqoop在导出到Mysql时，使用4个Map任务，过程中有2个任务失败，那此时MySQL中存储了另外两个Map任务导入的数据，此时老板正好看到了这个报表数据。而开发工程师发现任务失败后，会调试问题并最终将全部数据正确的导入MySQL，那后面老板再次看报表数据，发现本次看到的数据与之前的不一致，这在生产环境是不允许的。我们可以使用–staging-table创建临时表的方法来解决：sqoop export–connect jdbc:mysql://192.168.137.10:3306/user_b

2021-04-22 10:59:26 508

转载 kafka集群的配置案例

方案背景假设每天集群需要承载10亿数据。一天24小时，晚上12点到凌晨8点几乎没多少数据。使用二八法则估计，也就是80%的数据(8亿)会在16个小时涌入，而且8亿的80%的数据(6.4亿)会在这16个小时的20%时间(3小时)涌入。QPS计算公式：640000000÷(3x60x60)=60000，也就是说高峰期的时候Kafka集群要扛住每秒6万的并发。磁盘空间计算，每天10亿数据，每条50kb，也就是46T的数据。保存2个副本(在上一篇中也提到过其实两个副本会比较好，因为follower需要去le

2021-04-20 21:41:50 153

转载 kafka中处理超大消息的一些考虑

Kafka设计的初衷是迅速处理短小的消息，一般10K大小的消息吞吐性能最好（可参见LinkedIn的kafka性能测试）。但有时候，我们需要处理更大的消息，比如XML文档或JSON内容，一个消息差不多有10-100M，这种情况下，Kakfa应该如何处理？针对这个问题，有以下几个建议：最好的方法是不直接传送这些大的数据。如果有共享存储，如NAS, HDFS, S3等，可以把这些大的文件存放到共享存储，然后使用Kafka来传送文件的位置信息。第二个方法是，将大的消息数据切片或切块，在生产端将数据切片为10

2021-04-20 19:34:49 220

原创集群时间同步

集群时间同步时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。配置时间同步具体实操：时间服务器配置（必须root用户）（1）检查ntp（a）检查ntp是否安装[root@hadoop102 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6

2021-04-16 17:28:12 87

原创 hive多用户安装配置配置mysql存储元数据

目标：首先分发hive文件到各个节点：scp -r apache-hive/ root@node7-2:`pwd`服务器端:conf/hive-site.xml:<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration>

2021-03-24 19:43:36 135

原创如何在表中找到连续的日期

如何在一张表中找到连续的日期现在有一张表如下：那如何在这些数据中获取有多少个连续三天的记录呢？思路，可以使用开窗函数row_number() over()或者rank() over ():select * ,row_number() over (partition by mi_id order by dt) num from tab1;这样就会得到一个新表，以mi_id升序排列，再以dt升序排列，相同mi_id的序号依次递增；现在我们可以发现一个规律，如果日期连续，那么，我们用日期减去序号，得

2021-03-19 09:37:17 470

原创 mysql中常用的几种时间格式转换函数

mysql中常用的几种时间格式转换函数整1，from_unixtime(timestamp, format)：timestamp为int型时间，如14290450779；format为转换的格式，包含格式如下：%M 月名字(January……December)%W 星期名字(Sunday……Saturday)%D 有英语前缀的月份的日期(1st, 2nd, 3rd, 等等。）%Y 年, 数字, 4 位%y 年, 数字, 2 位%a 缩写的星期名字(Sun……Sat)%d 月份中的天数, 数

2021-03-18 17:31:04 3151

原创 sql 中常用的窗口排序函数

sql中常用的四个窗口排序函数1. row_number() over()2. rank() over()3. dense_rank() over()4. ntile() over()1.row_number() over(partition by fieldname order by fieldname desc/asc)用途非常广，排序最好用，它会为查询出来的每一行添加一个序号，可以理解为行号，不会重复，partition by 用来限定排序的范围，如果不写，则直接在全表中排序。在over中

2021-03-18 15:10:27 2884

原创 hadoop集群时间同步问题

hadoop集群时间同步问题时间不一致可能会报 region is not online错误。重启了hadoop集群主机之后，hadoop集群log中的时间一直不是系统时间，不知是装系统时的遗留问题（安装系统时区没有更改过）还是怎么。通过浏览http://hadoop:60010/jmx可看到user.timezone（时区）的value值是/America/New_York，并不是我们当前系统的时区。目前我的解决方法是添加hadoop、yarn和hbase的env的配置文件内容，分别如下：# cat

2020-10-24 16:12:56 459

haifeng112612的博客