鹿先森conan-CSDN博客

原创利用反射，从字符串生成一个UDF，并注册到sparksql、

import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.{col, split, udf}import scala.reflect.runtime._import scala.tools.reflect.ToolBoxobject Test0625 { def main(args: Array[String]): Unit = { val spark = SparkSession.bu.

2021-06-25 13:08:51 238

原创利用反射，完成类属性的替换

背景，需要对一个对象的属性判读，由于映射的是大数据中的宽表，使用属性前需要对属性做个判断，结果写出了大量的if else嵌套，尝试用反射的方法，实现替换类的属性：import beans.Columns;import sun.misc.Unsafe;import java.lang.reflect.Field;import java.util.ArrayList;import java.util.stream.Stream;public class test1 { public

2021-03-31 21:56:36 413

原创手写hadoop记录1

协议：package com.ltn.day01.test01;public interface ClientProtocol { long versionID = 1234L; void makedir(String path);}服务端：package com.ltn.day01.test01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.ipc.Server;i

2021-01-16 13:18:59 181

原创腾讯服务器搭建hadoop和spark集群启动spark-shell和hdfs dfs命令的报错记录

还有些8020端口，9000端口的各种java连接失败，几次三番确认了配置没有问题，namenode也格式化过无数遍，最终发现是、etc/hosts导致的。。。修修改改了多个版本，最终这样才成功了，并且浏览器访问50070端口也没问题了：...

2020-11-29 20:41:23 154

原创 kafka启动报错，内存不够的解决方法

解决方法：修改bin、kafka-server-start。sh修改后其中两台节点可以成功启动，还有一台始终报错，看了下内存。。。看样子是无法解决了

2020-11-28 16:25:13 916

原创 ELASTICSEARCH，出现某一个节点提示cluster name不一致的解决方法

解决方法，统一修改所有节点的cluster name，为一个新的name 并清除_data数据重新启动所有节点

2020-11-28 14:32:55 1110

原创 zookeeper集群启动报错：Cannot open channel to *ip:3888

排除了各种问题之后，发现是一个zoo。cfg的小细节192.168.1.2的zoo.cfg(其它属性的配置还按照原有的配置)：server.1=node01:2888:3888server.2=0.0.0.0:2888:3888server.3=192.168.1.3:2888:3888192.168.1.2的zoo.cfg(其它属性的配置还按照原有的配置)：server.1=192.168.1.1:2888:3888server.2=192.168.1.2:2888:...

2020-11-26 23:49:56 515

原创从0开始，配置自己的大数据集群环境（八）--kafaka安装

上传kafka并解压缩，修改config下的server.properties修该broker值，zookeeper集群配置启动前要先启动zookeeper，启动后在启动kafka启动kafka。kafka没有直接启动集群多台的方法，因此可以自己写个脚本#!/bin/bashcase $1 in"start"){ for i in node01 node02 node03 do echo "*********************...

2020-07-15 22:42:56 139

原创从0开始，配置自己的大数据集群环境（七）--ELASTICSEARCH集群安装

首先官网下载ELASTICSEARCH。并上传到服务器并解压创建新用户组es和新用户es并添加权限（es不允许root启动）添加es用户的权限在es目录下创建文件夹datavim/etc/security/limits.conf增加如下配置vi /etc/sysctl.conf增加配置vm.max_map_count=262144sysctl -pscp -r elasticsearch-7.8.0 node02:$PWDscp -r elastic...

2020-07-07 23:10:32 103

转载 Linux服务器，ssh服务突然失效的解决方法

公司某台服务器不知为何无法ssh连接上，进入现场查看：1.执行netstat -atnlp|grep ssh，没有找到ssh端口2.执行ps aux|grep ssh，没找到相关进程3.执行service sshd start，显示绿色的OK，但用ps和netstat看不到ssh任何信息，echo $?结果为04.执行service sshd status，显示：openssh-daemon is stopped4.执行service sshd stop，无报错信息，echo $?结果.

2020-07-05 17:43:01 7344

原创从0开始，配置自己的大数据集群环境（六）--spark集群安装

安装好hadoop后开始安装spark，首先安装scala2.12.2.上传后解压vim /etc/profileexport SCALA_HOME=/opt/client/servers/scala-2.12.2export PATH=$PATH:$SCALA_HOME/binsource /etc/profilescala -version验证是否安装成功解压spark到安装目录修改/etc/profile文件export SPARK_HOME=/o.

2020-06-30 23:30:38 96

原创工程同时存在java文件和scala文件时，打包不了scala文件的解决办法

当工程只有Scala文件时没有问题，然而当我同时写入java文件后发现打包文件里只有java文件的class文件，scala文件被无视了。于是引入net.alchim31.maven。然而编译确实各种报错Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile修改alchim31内容如下net.alchim31.mavenscala-maven-plugin3.2.22.11.8src/main/sc

2020-06-28 12:36:52 792

原创从0开始，配置自己的大数据集群环境（五）--hadoop集群安装

正式开始hadoop了。激动ing，。。。因为在自己的笔记本安装所以，配置所限，使用的是单节点模式，足够学习使用了.集群规划：首先，上传编译完成的hadoop包到节点，并解压。

2020-06-26 15:37:01 206

原创 hadoop安装前置步骤：重新编译hadoop

重新编译hadoop的原因是官方提供的包不支持一些常用的底层加密算法，使用hadoop时会报错如图：snappy加密是不支持的，现在开始准备编译工作：在/opt/下面创建两个文件夹software（编译用到的软件放在这里）和sourcecode（Hadoop放在这里）。mkdir -p /opt/sourcecode /opt/softwaretar -xzvf hadoop-3.2.1-src.tar.gz安装jdk。可以参考我之前的博客https://blog.csdn.net/g

2020-06-26 05:14:18 526

原创从0开始，配置自己的大数据集群环境（三）-mysql

预留

2020-06-26 02:13:22 175

原创大数据基础：zookeeper的命令操作

确保安装好zookeeper后通过命令开启服务/opt/client/servers/zookeeper-3.5.8/bin/zkServer.sh start并确保运行状态jps查看进程然后通过命令开启客户端：/opt/client/servers/zookeeper-3.5.8/bin/zkCli.sh -server node01:2181可以在任何一台连任何一台包括自己2181是默认端口创建节点 create [-s][-e] path data -s表示序列化，-e表

2020-06-26 00:16:28 241

原创从0开始，配置自己的大数据集群环境（四）--zookeeper集群搭建

zookeeper是一个高可用的集群管理工具，所有集群的节点的治理都离不开他zookeeper模型：（hadoop为例）首先，我们要下载zookeeper,新版本的zookeeper需要文件名bin的才是二进制文件，不要下错了下载后上传到节点目录并解压tar -zxvf apache-zookeeper-3.5.8-bin.tar.gz -C ../servers/解压后修改下包名mv apache-zookeeper-3.5.8-bin zookeeper-3.5...

2020-06-25 23:04:02 110

原创从0开始，配置自己的大数据集群环境（二）

设置ntp服务开机启动，然后开始设置定时任务，让集群的每一台机器都保持时钟同步systemctl start ntpdsystemctlenablentpd.servicecrontab -e编辑内容*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com;查看是否已经安装有java，如果有先卸载掉，避免后续和我们安装的版本冲突查看是否安装：rpm -qa | grep javarpm - e+包名，即可卸载，我这边没有就不演示了下载jd..

2020-06-25 21:01:41 163

原创从0开始，配置自己的大数据集群环境（一）

第一步，安装vm和centos7系统。设定好网关，这个是可以自己设定的，保持一致就可以，我在操作的后期更改了网段，所以图片会有不一致的情况，实际情况一致就可以由于提前知道了Elasticseach对linux版本有要求，需要内核4.X。所以我提前升级好了内核，具体方法可以百度。虚拟机的好处就是可以多备份，需要几个拷贝几个系统，给每个centos7配置固定的ip地址，不然每次开机可能ip不同，服务器是没有办法稳定的需要几个步骤，首先关闭NetworkManager并且禁止开机启动更

2020-06-25 19:09:51 277

原创在spark（scala）环境解析Json文件成为数组或对象。

因为sparksession读取文件会自动生成dataframe文件，虽然可以逐条解析，但是十分不方便，并且需要预知json格式，延展性比较差，所以使用scala读取本地文件的方法转化为json字符串，再解析为数组。json文件格式：[ { "param": "id1", "method": "11111", "seq": "22222", "relatedseq": "33333", "parametertype": "44444", "value": "55555" }, { "param": "i

2020-06-23 22:13:26 2348

guodongtanghe的专栏