自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 安装superset并连接clickhouse

Apache Superset是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。使用的服务器操作系统为CentOS 7,Superset对接的数据源为clickhouse数据库。

2023-06-05 20:59:08 949

原创 docker快速部署hue+hue集成hive

首先需要安装hive,hive的安装在安装完成之后,使用脚本命令启动hdfs和hive的相关服务。

2023-05-25 15:59:23 1875 4

原创 Hbase高可用集群的搭建

由于我们配置的hbase为高可用,而hbase本身无法识别我们设置的ns1(文件系统名)是什么,所以我们要将Hadoop的core-site和hdfs-site文件复制到hbase的conf目录下。高可用时由于zookeeper的选举机制,我们不知道每次启动时具体active的namenode因此就要求我们在配置hbase-site时不能直接指定具体的主机名。说明:此处的ns1要跟hadop高可用配置中hdfs-site.xml和core-site.xml中的一致。推荐去国内源进行安装。

2023-05-24 09:53:39 846

原创 Kafka安装与配置

与文中内容不同的是zookeeper中三台虚拟机名分别为hadoop1,hadoop2,hadoop3。而本文Kafka配置教程中,三台虚拟机名分别为node1,node2,node3。这本质都是一样的,只是名字不同,只需要修改名字,端口号等不需要改动。Kafka文件下的config/server.properties。需要注意的是,启动停止都需要在Kafka的bin目录下。停止: kafka-server-stop.sh。在kafka文件夹下创建logs文件夹。先在随便一台虚拟机上启动消费者。

2023-05-24 08:53:08 396

原创 Phoenix报错Malformed connection url

这个错误消息表明HBase连接字符串格式不正确。连接字符串似乎使用了两次端口号“:2181”。可能是因为读取的问题。修改hbase-site.xml。

2023-05-06 20:18:03 356

原创 使用matplotlib库画图,图像风格突然变化(有网格线,底色变成紫黑)

使用其他库进行绘图,导致当前绘图风格改变。(本人就是使用了seaborn库绘制了箱线图导致图像风格突变)运行如下代码即可解决。

2023-05-02 20:37:44 189

原创 phoenix进不去sqlline.py,一直卡住并且不报错

这种方法是不可取的,删除之后也无法正常使用,并且会导致原先的集群出现问题,甚至造成数据丢失,切不可盲目使用那种方法,这里推荐的方法是先保存。zookeeper元数据出现错误,进而导致一直卡在客户端连接当中。在网上搜了都说用去zookeeper。这里可能会由于之前修改过备用。集群中的数据表,然后重装。

2023-04-19 22:54:59 555

转载 MySQL PARTITION BY函数详解

转载:

2023-04-11 23:15:34 507

原创 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initiali和hbase启动后大量regionserver死亡的问题解决

经排查,发现错误在与之前配置错误时,启动hbase集群会有错误信息残留在zookeeper客户端以及hdfs的hbase目录中。先关闭hbase集群,删除hdfs的hbase目录 和 zookeeper的hbase目录。zookeeper客户端删除hbase目录。删除后再开启hbase集群 ,问题解决。

2023-03-13 10:20:31 516

原创 配置HBASE2.4版本高可用使用外部zookeeper时遇到的问题

最近在配置hbase高可用(使用外部zookeeper)时,发现网上并没有现成的资料。

2023-02-28 11:30:23 237 2

原创 解决secureCRT连接本地服务器速度慢的问题

最近在更换网络环境后,从前通过secureCRT连接本地虚拟机时很慢,有时甚至连接不上。最终发现是密钥交换的问题。key exchange栏中所有的选项都取消,只选中一个diffie-hellman即可。进入session options。

2023-02-27 08:50:44 829

原创 利用idea将项目打成jar包

右侧没有maven选项的点击idea窗口右下角的。

2023-01-07 16:50:12 170

原创 解决hive通过sqoop传输数据到mysql上后,已排序的数据变混乱的问题

但是在传数据到MySQL后,数据出现了乱序。由于已解决,问题不再 就无法截图了。今晚我在hive建表时已通过order by对数据进行了排序。在MySQL表中设置主键即可解决该问题。

2023-01-07 00:36:11 567

原创 Application state is completed.FinalApplicationStatus=SUCCEEDED.Redirecting to job history server的处理

上面的错误提示是连接某个集群下的节点失败,尝试连接历史服务也失败,之所以连接历史服务失败是因为我根本没配置,奇怪的是不知道为什么会出现该错误,猜测可能是mapreduce任务执行过程中某台节点因为卡顿问题挂掉了,所以要通过历史服务对该节点进行重新连接,但是由于我没有配置所以报错。今天在azkaban调度运行我的网站分析系统时,在运行数据预处理的jar包时出现了如下错误。ps:在你使用start-all.sh启动集群相关进程时,该进程默认不启动,需要手动启动。然后分发到节点的所以虚拟机上。

2023-01-05 16:54:43 322

原创 解决mapreduce一直处在runing job(accepted)阶段

1.首先查看自己虚拟机的nodemannager和resourcemannager是否成功启动,如果没有去重启试试,如果重启仍不成功,那么去检测配置文件是否出错。查看是否有未运行完的mapreduce程序,如果有那么就是因为你之前运行mapreduce的时候异常退出了,导致程序阻塞,你的后续程序无法正常运行。2.如果是你首次运行mapreduce程序,检测是否是自己的虚拟机内存不够。把进程全部关闭之后,重新运行jar包就成功了!3.如果是突然出现这个情况(我遇到的)

2023-01-04 01:59:01 678

原创 解决Flume java.lang.IllegalStateException: File has changed size since being read

将文件放到一个不被监听的文件下,之后通过mv命令或scp命令将文件移动到被监听文件夹下,问题即解决。出现这个报错的原因是因为当flume监听并采集文件内容时,该文件内容还在变化(被其他进程修改)就会导致报错。今天尝试将本地的一个log文件通过flume监听文件夹的形式上传到hdfs上时出现此错误。即通过正则匹配的形式,不让flume收集.tmp为后缀的内容,发现还是不行。

2023-01-02 21:04:28 403

原创 HIVE的安装与配置

安装环境与前提:1.三台虚拟机,已经进行了映射关系建立(/etc/hosts目录)2.Hadoop集群已经完成安装3.虚拟机mysql数据库已经完成安装若上方工作未完成,请移步我之前的文章进行安装。ps:并不需要zookeeper和ha高可用集群,有也不影响。

2023-01-02 17:51:17 654

原创 Flume监测爬虫文件夹内容并上传到HDFS

前面文章提到的爬虫程序编写完成后,在虚拟机上使用python3 ****.py运行,程序中的文件输出路径为/export/nocv_data。这里还采取了负载均衡的策略,也就是我们规定一个组(这里三台),组内一台监测文件夹并将数据包装成事件送出,由另外两台虚拟机上传到hdfs中。另外为了防止数据过多对本地文件占用等问题,我们需要设置deletePolicy参数,将文件采集之后即删除。启动顺序是,先第二级后第一级。之后我们启动flume后,运行爬虫程序,这样就可以实现flume试试上传数据到hdfs上。

2022-12-23 10:45:06 945

原创 pycharm连接虚拟机编写程序

这一步是设置本地文件夹和虚拟机中文件夹的映射关系,即你在本地对文件夹进行修改,虚拟机中对于路径下的内容也会发生相同变化。然后就可以通过pycharm直接编写虚拟机的python程序了。创建完成后还需要进行一步操作。做好上面的操作后点击创建。添加虚拟机环境的解释器。

2022-12-15 12:35:09 809

原创 虚拟机安装python环境

2.在开始安装python3之前,先要解决环境依赖问题,通过yum安装工具包,自动处理依赖关系,每个软件包通过空格分割提前安装好这些软件包,日后就不会出现很多坑。此时输入python调用的还是Linux自带的2.7.5版本,python3才是调用的刚刚安装的版本。此外如果要在虚拟机中部署scrapy,还要安装Twisted。1.先在虚拟机中创建一个用于放置python安装包的目录。然后source /etc/profile即可。先下载虚拟机的python安装包。将该安装包上传到该目录下。

2022-12-15 11:49:53 4702

原创 基于Hadoop集群实现数据处理及可视化展示

后续会将文章写出来,我这个项目的主题是疫情(虽然疫情快结束了,主要是分享思路,祝大家身体健康),数据来源于百度疫情(世界和我国各城市相关疫情数据)和一个私人的疫情网站(我国近十天的历史疫情数据),页面比较简陋,因为本人前端的功底比较薄弱。在以上基础上,可设置Linux的定时程序组合命令,实现实时爬取监控。1.部署爬虫到虚拟机(先在虚拟机中配置python环境)6.上传springboot项目到服务器,在线展示。3.编写mapreduce排序,去空值,规范数据。

2022-12-13 23:05:16 1648 5

原创 关于Echart的Uncaught TypeError: a.getAxesOnZeroOf is not a function报错问题

最后经过一番检查对比,发现是因为我没有在option中写xAxis,而是将所有的x轴的参数都放到了ajax函数判断数据获取成功后在行设置。这样写就会导致,如果ajax获取数据失败,那么图的xAxis任何参数都无法正常设置因此会报该错误。之后我将xAxis的参数挪到了option中,只在ajax中设置x轴的数据项,就不报该错误了。发现的时候很奇怪,这个错误并不影响它函数体本身的展示,也不影响在它上面的函数体,但在它下面的就无法正常显示,在网上搜了也没发现与我一样的错误,报错如图。看到最后一行点进去看。

2022-12-13 22:48:38 1494

原创 Echart世界地图汉化

汉化echart世界地图

2022-12-13 22:36:31 841

原创 HADOOP组件--FLUME、AZKABAN、SQOOP安装

先说一下FLUME的工作流程数据可通过监听收集,然后通过管道下沉到sink最终存放到hdfs上,可通过编辑conf文件来指定flume执行的任务,有些采集任务需要集群中多台机器进行工作,所以要安装到三台虚拟机当中老样子,可以在官网下载安装包,这里采用的flume的版本时1.9,同样不推荐太新的版本。上传安装包解压到servers中之后配置环境变量 vi /etc/profile下输入(这个文件的作用就是生成一个全局变量,在就是无论在任何位置都可以运行他的命令,如果没有设置就必须在路径下去运行)之

2022-12-08 13:20:30 318

原创 Hadoop高可用集群HA的安装

我们依照之前规划的集群进行搭建。不明白可以去的集群架构中查看生成集群其他的虚拟机并进行相关准备_EEEurekaaa!的博客-CSDN博客这里采用的Hadoop版本是3.1.4,不要选择太新的版本安装包可以直接去官网下载首先要安装Hadoop先把安装包放入software文件夹中把该文件包解压到servers路径下 tar -xvzf hadoop-3.1.4.tar.gz -C ../servers/我们需要对这6个文件进行修改这个文件主要是规定服务器中jdk的位置以及hdf和yarn的操作用户代码如下:

2022-12-07 16:55:51 634

原创 集群上Zookeeper服务的搭建

安装包可以直接去官网下载,尽量不要选择太新的版本这里选择的是3.6.3要先在虚拟机上安装lrzsz命令以便于我们将文件从本地上传到虚拟机yum install lrzsz之后把安装包上传到集群当中然后把zookeeper解压到servers中 tar -xzvf apache-zookeeper-3.6.3-bin.tar.gz -C ../servers之后我们为Zookeeper配置环境变量在文件末尾添加如下内容之后我们配置zookeeper复制一份然后去修改 cp zoo_sample.cfg

2022-12-07 15:15:48 120

原创 虚拟机JDK的安装

JDK是java的开发工具包,hadoop是用java开发的,所以需要安装jdk直接去网上下载一个Linux用的jdk包就可以,这里使用的是1.8版本的jdk通过lrzsz命令上传包,没有此命令需要安装解压此包到servers下tar -xzvf jdk-8u161-linux-x64.tar.gz -C ../servers之后配置环境变量vi /etc/profile在文件的最下方添加如下内容具体要看自己的jdk在那个位置之后使环境变量生效source /etc/profile测试发现 安装成功之

2022-12-07 14:39:44 1166

原创 虚拟机上MySQL的安装及远程连接

使用wget命令下载mysql的yum源在此之前要先安装wget命令之后执行 使用上面的命令就直接下载了安装用的Yum Repository然后用下面的命令更新升级GPG(可选) 之后安装yum源即可然后再安装MySQL服务器(有可能会耗时比较长,耐心等待,或者去官网直接下载再拷贝)安装完毕之后启动mysql服务器即可启动成功! 然后我们去修改mysql的密码先获取临时密码这里我们拿着临时密码去登录mysql并修改密码mysql -uroot -p 之后我们

2022-12-07 13:53:55 1658

原创 生成集群其他的虚拟机并进行相关准备

目录1.集群架构2.目录准备3.生成hadoop2和hadoop3本次实例共使用三台虚拟机,搭建基于zookeeper的Hadoop高可用集群虚拟机的任务分配如下:以下各进程的功能在后续安装时会有详细介绍NameNode(HDFS)DataNode(HDFS)ResourceMannger(Yarn)NodeMannger(Yarn)QuorumPeerMain(Zookeeper)JournalManager(Zookeeper)ZKFailoverController(Zookeeper)首先在hado

2022-12-06 14:48:32 419

原创 配置虚拟机主机名并建立与本地主机的ip映射关系

主机间映射关系建立

2022-12-06 13:20:08 3721

原创 SecureCRT远程连接虚拟机

所有远程连接工具连接虚拟机都是通过ssh2协议进行连接的,ssh是secure shell的简称,它相对于早期的telnet和rsh的明文传输,提供了加密、校验和压缩,使得我们可以很安全的远程操作。使用该软件最好通过正规渠道购买,仅作学习用途也可以pj,教程这里不再赘述,网上有很多。说一下破解注意事项:在安装好软件之后不要立即启动,将压缩包下的keygen.exe拷贝到软件根目录下,然后用管理员身份运行keygen,一定要用管理员身份运行其他具体步骤和工具可在网络搜索在连接之前需要对虚拟机先进行一个操作:关

2022-12-06 12:57:30 2323

原创 Linux虚拟机静态ip配置方法

Linux虚拟机静态ip配置方法(搭建Hadoop集群的网络) 之后重启一下网络服务测试 成功 使用ping命令进行测试,有的机器可能出现name or service not know解决方法可见本人博客:Linux系统下ping命令报错 name or service not know_EEEurekaaa!的博客-CSDN博客

2022-12-06 12:40:13 338

原创 Hadoop生态中各组件作用及关系

Hadoop生态各组件关系

2022-12-06 11:38:08 1219

原创 flume测试提示SLF4J绑定错误

由于 Flume 是 Hadoop 生态的一个日志采集工具,所以当启动 Flume 后,Flume 就会去加载 Hadoop_HOME 中的类,所以启动时可以看到加载了许多 Hadoop 下的包,当 SLF4J 时,在 Flume 自己目录下也有 SLF4J,就导致了类的冲突,而且版本不一样。可以看到我的错误时因为hadoop-3.1.4/share/hadoop/common/lib下的slf4j版本与flume中的slf4j版本不同导致错误。可以将flume下的slf4j文件删除或者修改名字进行备份。

2022-11-18 13:17:29 1193

原创 Linux系统下ping命令报错 name or service not know

进入编辑模式,增加如下两行内容,分别是首选DNS服务器和备选DNS服务器。(可以自己选择DNS服务器,包括谷歌的8.8.8.8或者腾讯的119.29.29.29都是可以的)2、修改如下配置文件(这个文件名称不同的客户端可能会不同)CentOS,但是当执行ping命令的时候,提示。测试一下,如果还是报错,请继续下一步。将ONBOOT=no 改成 ONBOOT=yes。再进行测试,问题解决。1、添加DNS服务器。

2022-10-07 11:00:12 3655 1

原创 Python简单数据处理(静态网页爬取,jupter实现)

对于哔哩哔哩动漫排行榜网页信息的爬取及处理(静态网页)

2022-09-26 09:26:12 2931

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除