![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 53
鹿先森conan
只有知识能让你脱离平庸
展开
-
利用反射,从字符串生成一个UDF,并注册到sparksql、
import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.{col, split, udf}import scala.reflect.runtime._import scala.tools.reflect.ToolBoxobject Test0625 { def main(args: Array[String]): Unit = { val spark = SparkSession.bu.原创 2021-06-25 13:08:51 · 233 阅读 · 0 评论 -
手写hadoop记录1
协议:package com.ltn.day01.test01;public interface ClientProtocol { long versionID = 1234L; void makedir(String path);}服务端:package com.ltn.day01.test01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.ipc.Server;i原创 2021-01-16 13:18:59 · 176 阅读 · 0 评论 -
腾讯服务器搭建hadoop和spark集群启动spark-shell和hdfs dfs命令的报错记录
还有些8020端口,9000端口的各种java连接失败,几次三番确认了配置没有问题,namenode也格式化过无数遍,最终发现是、etc/hosts导致的。。。修修改改了多个版本,最终这样才成功了,并且浏览器访问50070端口也没问题了:...原创 2020-11-29 20:41:23 · 150 阅读 · 0 评论 -
kafka启动报错,内存不够的解决方法
解决方法:修改bin、kafka-server-start。sh修改后其中两台节点可以成功启动,还有一台始终报错,看了下内存。。。看样子是无法解决了原创 2020-11-28 16:25:13 · 894 阅读 · 0 评论 -
ELASTICSEARCH,出现某一个节点提示cluster name不一致的 解决方法
解决方法,统一修改所有节点的cluster name,为一个新的name 并清除_data数据重新启动所有节点原创 2020-11-28 14:32:55 · 1096 阅读 · 0 评论 -
zookeeper集群启动报错:Cannot open channel to *ip:3888
排除了各种问题之后,发现是一个zoo。cfg的小细节192.168.1.2的zoo.cfg(其它属性的配置还按照原有的配置):server.1=node01:2888:3888server.2=0.0.0.0:2888:3888server.3=192.168.1.3:2888:3888192.168.1.2的zoo.cfg(其它属性的配置还按照原有的配置):server.1=192.168.1.1:2888:3888server.2=192.168.1.2:2888:...原创 2020-11-26 23:49:56 · 506 阅读 · 0 评论 -
从0开始,配置自己的大数据集群环境(八)--kafaka安装
上传kafka并解压缩,修改config下的server.properties修该broker值,zookeeper集群配置启动前要先启动zookeeper,启动后在启动kafka启动kafka。kafka没有直接启动集群多台的方法,因此可以自己写个脚本#!/bin/bashcase $1 in"start"){ for i in node01 node02 node03 do echo "*********************...原创 2020-07-15 22:42:56 · 136 阅读 · 0 评论 -
从0开始,配置自己的大数据集群环境(七)--ELASTICSEARCH集群安装
首先官网下载ELASTICSEARCH。并上传到服务器并解压创建新用户组es和新用户es并添加权限(es不允许root启动)添加es用户的权限在es目录下创建文件夹datavim/etc/security/limits.conf增加如下配置vi /etc/sysctl.conf增加配置vm.max_map_count=262144sysctl -pscp -r elasticsearch-7.8.0 node02:$PWDscp -r elastic...原创 2020-07-07 23:10:32 · 101 阅读 · 0 评论 -
Linux服务器,ssh服务突然失效的解决方法
公司某台服务器不知为何无法ssh连接上,进入现场查看:1.执行netstat -atnlp|grep ssh,没有找到ssh端口2.执行ps aux|grep ssh,没找到相关进程3.执行service sshd start,显示绿色的OK,但用ps和netstat看不到ssh任何信息,echo $?结果为04.执行service sshd status,显示:openssh-daemon is stopped4.执行service sshd stop,无报错信息,echo $?结果.转载 2020-07-05 17:43:01 · 7085 阅读 · 0 评论 -
从0开始,配置自己的大数据集群环境(六)--spark集群安装
安装好hadoop后开始安装spark,首先安装scala2.12.2.上传后解压vim /etc/profileexport SCALA_HOME=/opt/client/servers/scala-2.12.2export PATH=$PATH:$SCALA_HOME/binsource /etc/profilescala -version验证是否安装成功解压spark到安装目录修改/etc/profile文件export SPARK_HOME=/o.原创 2020-06-30 23:30:38 · 92 阅读 · 0 评论 -
工程同时存在java文件和scala文件时,打包不了scala文件的解决办法
当工程只有Scala文件时没有问题,然而当我同时写入java文件后发现打包文件里只有java文件的class文件,scala文件被无视了。于是引入net.alchim31.maven。然而编译确实各种报错Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile修改alchim31内容如下net.alchim31.mavenscala-maven-plugin3.2.22.11.8src/main/sc原创 2020-06-28 12:36:52 · 786 阅读 · 0 评论 -
从0开始,配置自己的大数据集群环境(五)--hadoop集群安装
正式开始hadoop了。激动ing,。。。因为在自己的笔记本安装所以,配置所限,使用的是单节点模式,足够学习使用了.集群规划:首先,上传编译完成的hadoop包到节点,并解压。原创 2020-06-26 15:37:01 · 205 阅读 · 0 评论 -
hadoop安装前置步骤:重新编译hadoop
重新编译hadoop的原因是官方提供的包不支持一些常用的底层加密算法,使用hadoop时会报错如图:snappy加密是不支持的,现在开始准备编译工作:在/opt/下面创建两个文件夹software(编译用到的软件放在这里)和sourcecode(Hadoop放在这里)。mkdir -p /opt/sourcecode /opt/softwaretar -xzvf hadoop-3.2.1-src.tar.gz安装jdk。可以参考我之前的博客https://blog.csdn.net/g原创 2020-06-26 05:14:18 · 523 阅读 · 0 评论 -
从0开始,配置自己的大数据集群环境(三)-mysql
预留原创 2020-06-26 02:13:22 · 171 阅读 · 0 评论 -
大数据基础:zookeeper的命令操作
确保安装好zookeeper后通过命令开启服务/opt/client/servers/zookeeper-3.5.8/bin/zkServer.sh start并确保运行状态jps查看进程然后通过命令开启客户端:/opt/client/servers/zookeeper-3.5.8/bin/zkCli.sh -server node01:2181可以在任何一台连任何一台包括自己2181是默认端口创建节点 create [-s][-e] path data -s表示序列化,-e表原创 2020-06-26 00:16:28 · 233 阅读 · 0 评论 -
从0开始,配置自己的大数据集群环境(四)--zookeeper集群搭建
zookeeper是一个高可用的集群管理工具,所有集群的节点的治理都离不开他zookeeper模型:(hadoop为例)首先,我们要下载zookeeper,新版本的zookeeper需要文件名bin的才是二进制文件,不要下错了下载后上传到节点目录并解压tar -zxvf apache-zookeeper-3.5.8-bin.tar.gz -C ../servers/解压后修改下包名mv apache-zookeeper-3.5.8-bin zookeeper-3.5...原创 2020-06-25 23:04:02 · 108 阅读 · 0 评论 -
从0开始,配置自己的大数据集群环境(二)
设置ntp服务开机启动,然后开始设置定时任务,让集群的每一台机器都保持时钟同步systemctl start ntpdsystemctlenablentpd.servicecrontab -e编辑内容*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com;查看是否已经安装有java,如果有先卸载掉,避免后续和我们安装的版本冲突查看是否安装:rpm -qa | grep javarpm - e+包名,即可卸载,我这边没有就不演示了下载jd..原创 2020-06-25 21:01:41 · 160 阅读 · 0 评论 -
从0开始,配置自己的大数据集群环境(一)
第一步,安装vm和centos7系统。设定好网关,这个是可以自己设定的,保持一致就可以,我在操作的后期更改了网段,所以图片会有不一致的情况,实际情况一致就可以由于提前知道了Elasticseach对linux版本有要求,需要内核4.X。所以我提前升级好了内核,具体方法可以百度。虚拟机的好处就是可以多备份,需要几个拷贝几个系统,给每个centos7配置固定的ip地址,不然每次开机可能ip不同,服务器是没有办法稳定的需要几个步骤,首先关闭NetworkManager并且禁止开机启动更原创 2020-06-25 19:09:51 · 276 阅读 · 0 评论 -
在spark(scala)环境解析Json文件成为数组或对象。
因为sparksession读取文件会自动生成dataframe文件,虽然可以逐条解析,但是十分不方便,并且需要预知json格式,延展性比较差,所以使用scala读取本地文件的方法转化为json字符串,再解析为数组。json文件格式:[ { "param": "id1", "method": "11111", "seq": "22222", "relatedseq": "33333", "parametertype": "44444", "value": "55555" }, { "param": "i原创 2020-06-23 22:13:26 · 2335 阅读 · 0 评论