金星000-CSDN博客

原创 ElasticSearch安装与集群搭建

进入/usr/local/software/tars 目录下执行以下指令，必须使用普通用户完成，后面启动不允许使用root用户，这里我们使用之前创建的hadoop用户即可。在slave01和slave02的上重复前面的操作，然后依次启动即可。elasticsearch.yml文件中的其他配置信息一致即可。其他节点的集群也执行1，2，3的操作即可。limits.conf文件，在底部添加。参数，该参数设置进程可以适用的的。”命令，使修改的配置生效。（虚拟内存区域）数量。

2023-06-17 13:42:06 1212

原创 HBase Java API使用IDEA开发----mapreduce读取hdfs文件写入hbase

在hadoop-env.sh 添加export HADOOP_CLASSPATH=$HBASE_HOME/lib/*没有配置HBASE_HOME的去/etc/profile配置环境变量，路径根据你自己的自行修改。在hadoop的bin目录下执行 hadoop jar jar包名字类名。二、把需要读取的文件上传到hdfs的/user目录下。四、使用maven打包项目，上传到linux，执行程序。一、配置hadoop读取hbase的支持包。把jar包文件复制出来传到linu目录下。

2023-04-22 08:48:29 637

原创 HBase Java API使用IDEA开发

双击打开pom.xml文件这里把springboot 版本更换为2.3.5.RELEASE。三、编写Hbase操作工具类（创建表空间，表，添加数据，查询数据，修改数据，删除数据）加入hbase client 的支持包，这里版本需要跟服务器上安装的版本号一致。1.从windows本地读取文件写入Hbase。二、使用maven管理jar包。一、使用IDEA创建项目。

2023-04-15 22:58:19 2083

原创 HBase Shell

这是Apache HBase的官方文档。HBase是一个分布式，版本化，面向列的开源数据库，构建在 Apache Hadoop和 Apache ZooKeeper之上。之前给的ROWKEY为"1"的name是"张三"，使用put命令重新给ROWKEY为"1"的name赋值为"Jim"scan默认查出来的是最新版本的数据，想要查看被覆盖的数据使用参数RAW和VERSIONS。在hbase 的bin目录下执行./hbase shell。启动zookeeper----》hadoop--》hbase。

2023-03-25 13:34:38 344

原创 Spark 读写Hbase

启动zookeeper----》hadoop----》hbase创建hbase表studentcreate 'student' ，'info'添加数据put 'student' ，'1' ，'info:name','James'put 'student' ，'1' ，'info:age','23'put 'student' ，'1' ，'info:gender','F'put 'student' ，'2' ，'info:name','Smith'put 'studen

2022-03-24 21:40:45 4065

原创 Linux下下载安装mysql

下载地址：wget -c -t 0 https://dev.mysql.com/get/Downloads/MySQL-5.6/mysql-5.6.45-linux-glibc2.12-x86_64.tar.gz1、查看是否安装过mysql。rpm -qa | grep mysql*2、有就卸载mysql。yum remove -y mysql*3.解压数据包。tar -zxvf mysql-5.6.45-linux-glibc2.12-x86_64.tar.gz ..

2022-03-11 20:17:34 2686 1

原创 Linux下安装配置Python

一、下载与安装配置wget https://www.python.org/ftp/python/3.9.10/Python-3.9.10.tgz二、解压安装1.查看当前系统的python版本号python -V 主要是大写的V我们需要安装的是Python3，所以需要卸载掉已经安装的2.查看python相关的文件rpm -qa | grep python*3.卸载pythonyum remove -y pytho...

2022-02-11 11:14:07 18173 3

原创 Scala语法

1.var 和 val 都是用来声明变量的关键字 var 声明的变量是一个可以被重复赋值的变量 val 声明的变量一经赋值就不能再被重复赋值2.数组3.列表4.map5.

2021-09-29 15:39:06 345

原创 HBase安装使用与集群配置

可以在/usr/hadoop/ 目录下执行wget https://dlcdn.apache.org/hbase/2.3.6/hbase-2.3.6-bin.tar.gz添加JAVA_HOME设置cd/usr/hadoop/hbase-2.3.6/confvi hbase-env.sh切换到hbase的bin目录 cd ../bin启动hbase访问浏览器http://你的主机ip:16010/...

2021-09-29 11:55:03 1341

原创 Zookeeper安装与配置与集群搭建

Hbase启动时需要连接Zookeeper，所以接下来进行zookeeper的安装下载与安装使用wget方式下载wget https://dlcdn.apache.org/zookeeper/stable/apache-zookeeper-3.6.3-bin.tar.gz在master主机上操作cd /usrmkdir zookeeperwget https://dlcdn.apache.org/zookeeper/stable/apache...

2021-09-29 11:54:35 979

原创 Spark-----RDD编程

RDD（Risilient Distributed DataSets）弹性分布式数据集它是一个只读的，可分区的分布式数据集，这个数据集的全部或者部分缓存在内存中，可以多次计算和复用。一、RDD基础（一）RDD创建方式加载文件 1.从本地文件系统中加载文件 2.从分布式文件系统hdfs中加载通过并行集合 1.数组（二）RDD操作(转化和动作) 1.转化 filter(func) ...

2021-09-29 11:53:50 867

原创 Hadoop shell使用以及Spark-shell下使用Spark初体验

想要使用Spark来处理Hadoop下的数据，需要先对Hadoop shell进行了解，涉及的操作如下查看hdfs 目录结构 hadoop fs -ls / 查看根目录下注意这里的切换目录只能通过路径进行比如想进入user目录，就执行hadoop fs -ls /user如果没有的目录，可以通过mkdir进行创建hadoop fs -ls创建目录和文件hadoop fs -mkdir 绝对路径从本地上传文件到hadoo...

2021-09-24 11:22:42 361

原创 Spark-Shell使用

安装完Spark后，想要马上体验一下Spark程序开发，可以通过Spark-Shell金星交互式编程环境spark-shell提供的简单的方式来进行Spark API的体验，在这个环境下输入一条指令语句，它会立即执行语句并返回结果。spark-shell 支持 scala语言和python语言，使用spark-shell命令默认是使用scala，使用pyspark是使用python环境其他shell工具只能使用单机的硬盘和内存来操作数据，而spark-shell可用来与分布存储在多台

2021-09-24 09:15:24 1150

原创 Spark集群部署

Spark集群要与Hadoop集群一样的部署方案，需要在Hadoop的master机上先把Spark相关的进行设置，然后把master机上的Spark环境复制到worker机。同时也是使用hadoop用户去操作Spark，这一点非常重要。想要完成以上操作，需要对Spark的目录结构有所了解Spark根目录下的conf 里存放的配置文件，比较重要的，而且需要自行修改的是spark-env.sh.template,slaves.template ,尽量不要在原始模板上直接进行修改，最好是cop.

2021-09-19 09:19:52 753

原创 Hadoop集群--文件系统格式化和集群启动

hadoop在安装配置完后启动前必须要先进行节点格式化，使用hadoop的操作用户jinxing完成，在主节点执行指令，带动从节点启动hdfs namenode -format但是由于之前解压hadoop的包时使用的是root，所有现在hadoop-3.3.0只能有root采用权限操作，导致hadoop的普通账号jinxing没有权限去其下创建logs文件。解决办法有2个：1.从最开始解压时就使用jinxing账号，这样的活后续就不会有问题2.如果之前使用root解压的包..

2021-09-18 15:51:41 3817

原创创建Hadoop普通用户

在进行Hadoop管理时一般是使用普通用户身份，而不是用root，所以这是徐需要我们去创建一个普通用户身份的账号，然后给分配这个操作hadoop的权限创建账号的指令设置密码这里设置root123 或者你也可以自行设置分配权限使用chmod 目标用户:目标群组文件夹名字进行拥有者和分组修改这样以后就可以使用jinxing这个账号进行操作hadoop了...

2021-09-18 09:05:50 1420

原创 Linux安装后IP获取和设置问题

如果输入ifconfig后在ens33网卡信息中看不到ip地址，很可能跟它的如下设置有关通过vi /etc/sysconfig/network-scripts/ifcfg-ens33 命令对其进行设置，把红框处的no换成yes:wq! 保存后然后执行 service network restart再执行ifconfig但是这是的ip还是动态的，最好设置成静态的，再次去编辑哪个ens33网卡的设置信息:wq! 保存后 service network re...

2021-09-11 11:18:40 266

原创 Scala安装

一.下载这里注意：在执行curl -s "https://get.sdkman.io" | bash这时候会报出缺少unzip的程序yum isntall unzip后继续curl -s "https://get.sdkman.io" | bash这时候又会提示没有zip程序yum install zip完成后继续curl -s "https://get.sdkman.io" | bash出现All d...

2021-09-07 17:01:49 375

原创 Spark安装

一.下载地址这里不直接下载到本地计算机，可以在linux下通过wget下载在usr目录下通过 mkdir spark创建spark目录，在spark目录下执行下载wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.3/spark-3.0.3-bin-hadoop2.7.tgz下载到所在目录即可，然后进行解压 tar -zxvf spark-3.0.3-bin-hadoop...

2021-09-07 15:54:07 518

原创集群Linux各个节点的配置------Hadoop环境配置

2个env文件：hadoop-env.sh,yarn-env.sh4个site文件:core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml具体配置我们来看看官网：http://hadoop.apache.org/可以按这里的步骤操作前面我们都安装好了在hadoop-env.sh中加入JAVA_HOME环境变量路径根据自己之前安装JAVA的进行设置使用vi hadoop...

2021-09-06 10:35:51 1309

原创集群Linux各个节点的配置------Hadoop下载与安装

下载Hadoop方式 1.windows下官网下载压缩包，然后文件传输到linux 百度“hadoop”，点击 Apache Hadoop连接进入官网 2.在centos下使用wget进行下载安装wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz以上两者的区别，使用windows下载可能有的下载软件速度...

2021-06-01 10:46:45 990

原创集群Linux各个节点的配置------免秘钥登陆

Hadoop集群服务器之间进行通信操作需要从一台服务器ssh方式登陆到另一台服务器，为了不进行用户名和密码的输入，直接登陆对对方服务器的文件进行操作，不做任何校验和拦截，可以使用免秘钥方式。启动Hadoop集群时，因为是主从架构，需要主节点上执行启动命令，主节点带动从节点，这样主就要分别访问从，必须要做免密登陆。生成秘钥需要在主服务器HadoopMasterServer，然后把HadoopMasterServer的公钥复制到HadoopSlaveServer1和HadoopSlaveSer.

2021-05-28 15:13:43 623

原创服务器端获取客户端ip地址的问题

公司App在访问服务器端接口时，后台会获取客户端的ip地址，正式服务器和测试环境都没有问题，两个之前都是使用的阿里云服务器。为了节约成本，把测试服务器给挪到了内网的一台本地服务器上，但是有些功能需要通过访问，比如微信支付的回调等，当把环境部署好以后，想使用外网就安装了一个内网穿透工具网云穿，通过这个进行外网的回调，但是这时问题出现了获取的ip地址竟然是"221.234.22.31, 192.168.0.3",注意这个串是由两个ip组成的，中间使用逗号给隔开了，造成这个问题的原因当然是这个内网穿透

2021-05-27 15:22:24 936

原创 Linux下搭建Hadoop环境---JDK安装

这里安装JDK8安装JDK8的方式有多中在windows下下载压缩包，通过xftp上传到linux服务器去官网下载https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html完了以后使用Xftp上传到linux服务器指定目录下使用wget在本地下载，默认当前处于哪个目录，就会自动下载到对应的目录下wget --no-cookies --no-check-certificate --head.

2021-05-23 17:24:38 1009 1

原创集群Linux各个节点的配置------配置host列表

配置host列表的目的就是，把集群下的所有主机都知道其他主机的存在，并且知道他们的主机名这ip。在Hadoop分布式集群中，服务器之间会频繁的通信，传递数据的同步和负载均衡。需要在/etc/hosts 里添加主机的ip和主机名映射关系保存即可通过ping 名利验证是否可以访问其他主机在master上ping salve1 slave2在slave1上ping master slave2在slave2上平master ，slave1...

2021-05-22 15:47:14 1694

原创集群Linux各个节点的配置------防火墙

防火墙是系统安全保障的一部分，但是自带的防火墙开启会影响甚至阻断节点之间的通信和数据传递。所以需要关闭各个节点之间的防火墙。linux centos7下查看防火墙当前状态 systemctl satus firewalldactive代表运行中关闭防火墙指令如下：systemctl stop firewalld开启防火墙systemctl start firewalld...

2021-05-22 14:58:53 677

原创集群Linux各个节点的配置------配置主机名字

主机名和ip是一样的，都可以通过网络进行访问，前面我们给虚拟机取的HadoopMasterServer,HadoopSlaveServer1,HadoopSlaveServer2这些名字只是业务逻辑名如果想通过名字去访问主机还得去配置和IP作用一样的主机名字。对应关系HadoopMasterServer masterHadoopSlaveServer1 slave1HadoopSlaveServer2 slave2使用指令：vi /etc/sysco...

2021-05-22 14:31:17 1918

原创集群Linux各个节点的配置------同步时钟

时钟同步问题： 1.和谁的时钟同步？ 3台服务器都是不稳定的，那么就需要找一个标准的时钟。这里选择国际一个标准时间服务器 cn.pool.ntp.org当然也可以选择阿里云时间服务器aliyun.com 都是域名形式的这也要求这3台必须能访问外网。 2.怎么同步时钟？配置自动方式的时钟同步（到点执行才生效）和手动同步时间（立即生效）自动方式的时钟同步如下 Linux服务器配置时钟的命令： ...

2021-05-22 14:12:02 751

原创集群Linux各个节点的配置------IP地址

启动主服务器HadoopMasterServer和HadoopSlaveServer1，HadoopSlaveServer2.三个都启动后等待登陆。使用root 账号登陆，密码使用安装系统时设定的那个，想使用Xshell连接操作的话，请参照https://blog.csdn.net/jinxing_000/article/details/117148457文章。由于Xshell对三台服务器的链接需要通过ip地址，克隆时这3台ip地址都一样，所以需要调整HadoopSlaveServer1和H

2021-05-22 11:32:23 2996

原创使用VMware制作分布式集群

使用VMware制作分布式集群已经安装了VMware（制作单独的教程）已经安装了一个CentOS系统（制作单独的教程）如下图是一个安装好的linux服务器，取名为HadoopMasterServer 接下来通过VMware进行克隆添加两个奴隶机或者叫从机这里注意：1.搭建集群至少得3台，所以我们使用的是一主两从，2.克隆前必须要把虚拟机服务器关闭，这样的状态下才能进行克隆3.克隆前最好把服务器里需要的软件环境搭建好，否则后来发现问题挨个调整...

2021-05-22 09:40:42 964

原创 Hadoop安装过程与问题解决

Hadoop安装过程与问题解决安装环境： CentOS JDK1.8如何查看系统版本号，如下图cat /etc/redhat-release下载Hadoop 包可以通过在windows下下载，然后通过linux的客户端工具进行上传，这里我们选择使用xshell，如下图点击官网链接进入点击下载选择免费授权页面，在这个页面了填写我们的信息，尤其是邮箱，通过邮箱给我们发送下载链接这里最好选择两者，会同时把Xshell和Xftp的下载链接...

2021-05-22 09:01:12 957