- 博客(27)
- 收藏
- 关注
原创 spark写入redis报错空指针
1、spark集群 每个executor是否 与redis集群 网络策略是否通。2、写入redis的数据是否 有 null值 需要把null值 转成空字符串。3、可以用 pipleline 并行写数据。
2024-08-01 09:35:30 187
原创 sparkstreaming 消费kafka kerberos认证报错问题处理
kafka_client_jaas.conf配置参数。spark 参数配置。
2024-07-26 17:39:58 411
原创 docker base镜像
FROM centos:7MAINTAINER Skyroad service@skyroadsecurity.comLABEL author=" Skyroad service@skyroadsecurity.com"LABEL description="Skyroad Bigdata docker images"#设置工作目录WORKDIR /opt/bigdata#COPY sources.list /etc/apt/sources.list#这句只是来看看原始源的内容⾿#RUN ec
2021-04-08 12:10:58 345 1
原创 spark启动不了问题
启动多个spark程序只有一个running 其他accept通过设置 hadoop下的capacity-scheduler.xml默认为0.1 改为 0.8 其他程序就可以启动了 需要重新hdfs及spark<property> <name>yarn.scheduler.capacity.maximum-am-resource-percent</name> <value>0.8</value>...
2021-03-24 14:26:21 1903
原创 安装docker
/etc/apt/sources.listmirrors.163.com更换软件源的详细操作,以UBUNTU举例:这里如果提示找不到源的签名需要下载签名举例:sudo apt-key adv --keyserverkeyserver.ubuntu.com43--recv-keys ED444FF07D8D0BF6安装Docker需要ROOT权限.sudo -scurl -sSL https://get.docker.com/|sh#也可以这样写curl -sSL htt...
2021-03-13 14:25:30 326
原创 搭建虚拟机遇到的问题
搭建虚拟机 当本机电脑上不了网的时候,使虚拟机上网的话,需要用到桥接模式 ,选择Automatic(DHCP)模式 如果想让ip不变化 ,生成ip之后,要手动去指定ip,设置固定ip
2021-03-04 17:07:13 175 1
原创 java 操作elasticsearch6.8.0 简单测试 及springboot 操作elasticsearch6.8.0
pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/mav
2021-01-22 17:35:17 791
转载 spark sql原理及使用 基本使用mysql hive rdd转为dataframe
一、spark SQL概述1.1 什么是spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。1.2 spark SQL的特点1、容易集成:安装Spark的时候,已经集成好了。不需要单独安装。2、统一的数据访问方式:JDBC、JSON、Hive、parquet文件(一种列式存储文件,是SparkSQL默认的数据源,hive中也支持)3、完全兼容Hive。可以将H
2021-01-20 16:03:24 439
原创 自定义flume拦截器--简单测试
pom文件 <dependencies> <!--flume--> <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.5.2</version> &
2021-01-09 16:18:44 333 2
原创 Redis 工具类---代码
package com.tiantu.spark.hdpimport redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig}/** * TODO * * @author hell * @date2020/12/25 15:46 * */object RedisUtil { @volatile private var jedisPool: JedisPool = null /** * 获取JedisPool .
2020-12-25 19:56:30 98 1
转载 kafka面试总结(全面)
Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个后台开发人员必备的技能。今天就从常见的 Kafka 面试题入手和大家聊聊 Kafka 的那些事儿。思维导图讲一讲分布式消息中间件面试问题:什么是分布式消息中间件? 消息中间件的作用是什么? 消息中间件的使用场景是什么? 消息中间件选型?消息队列分布式消息是一种通信机制,和 RPC、HTTP、RMI 等不一样,消息中间件采用分布式...
2020-12-22 14:53:01 4292 2
原创 远程kafka问题并解决 org.apache.kafka.common.errors.TimeoutException: Expiring 4 record(s) for ***0 due to
先检查windows环境上的hosts (C:\Windows\System32\drivers\etc\hosts)是否配置映射 ip与域名的如:192.168.1.100 hdp02192.168.1.101 hdp03如果没解决如下查看kafka配置 server.properties.是否有listeners=PLAINTEXT://192.168.1.101:8888advertised.listeners=PLAINTEXT://...
2020-11-28 11:39:33 1815
原创 Kafka问题并解决 Connection to xxx could not be established. Broker may not be available. 及不同ip段问题
先检查windows环境上的hosts (C:\Windows\System32\drivers\etc\hosts)是否配置映射 ip与域名的如:192.168.0.100 hdp02192.168.0.101 hdp03如果没解决如下查看kafka配置 server.properties.是否有listeners=PLAINTEXT://192.168.1.200:8888advertised.listeners=PLAINTEXT://...
2020-11-27 19:09:44 355
原创 flume启动参数说明
使用flume-ng shell脚本进行启动,进入flume 目录下:$ bin/flume-ng agent -n $agent_name -c conf -f conf/flume-conf.conf -Dflume.root.logger=INFO,console bin/flume-ng agent -n a1 -c conf -f job/kafka-flume-log-test.conf -Dflume.root.logger=INFO,console启动命令由4部分组成:.
2020-11-25 11:55:04 1388
原创 查看kafka 消费者中消费组的消费情况
查看消费者消费组的消费记录进入kafka目录下的bin目录:./kafka-consumer-offset-checker.sh --zookeeper hdp13.long.com:2181/kafka --group group33 --topic handleMonitorLoggroup消费组topic topic值消费主题pid partition的IDoffsetkafka消费者消费的位置logSize写入到该分区的数据位置Lag...
2020-11-21 16:34:24 3915
原创 kafka 如何确定分区数及不同分区测试效果
Partitions设计目的kafka是基于文件存储,每个partition在存储层面试append log文件,任何发布到此partition的消息都会被直接追加到log文件的尾部。通过分区,可以将日志内容分散到多个server上,来避免文件尺寸达到单机磁盘的上限,每个partition都会被当前server(kafka实例)保存,可以将一个topic切分到任意多个partitions。越多的partitions意味着可以容纳更多的consumer,有效提升并发消费的能力。那么如何确定分区的数量...
2020-11-09 17:05:23 735
原创 hdfs磁盘满时,hdfs删除数据报错及解决
错误[root@hdp01 etc]# hdfs dfs -rm -r /data/log/log_format/2020-11-06/logstart-.1604630235482.tmp20/11/09 10:54:26 WARN fs.TrashPolicyDefault: Can't create trash directory: hdfs://hdp01.long.com:8020/user/hdfs/.Trash/Current/data/log/log_format/2020-11-06
2020-11-09 11:18:07 2008
原创 flink学习
FlinK的主要特点事件驱动基于流的世界观 有界流与无界流分层APIProcessFunction(events,state,time) => datastreamApi(strems/windows) => SQL(dynamic tables)其他特点:高可用
2020-10-22 20:32:23 87
原创 hive数据倾斜
hive的数据倾斜原因:1业务数据本身的原因2某些Sql语句本身导致的原因3key值分布不均匀解决方法:参数设置:hive.map.aggr=true,进行map端聚合hive.groupby.skewindata=true
2020-10-21 23:40:21 82
原创 Elasticsearch-----nested查询 多重聚合与嵌套
查询数量[root@localhost ~]# curl -XGET 192.168.0.***:9200/****/_count?pretty{ "count" : 8406117, "_shards" : { "total" : 9, "successful" : 9, "failed" : 0 }}简单聚合curl -XGET 192.168.0.***:9200/*****/_search?pretty -d '{"size": 0,"aggs"...
2020-10-21 17:07:20 2756
原创 github绑定远程仓库及将本地代码同步到远程
创建项目过程git 初始化仓库的命令是git init绑定远程仓库 使用 git remote add origin 'url' 命令将远程仓库与本地仓库绑定。git remote add origin http://192.168.60.204/bigdata_broad_group/TestProject.git git pull origin mastergit add file 命令将改变添加到暂存区git add .git commit -m “注释”...
2020-10-21 15:35:51 348
原创 xshell 命令
好记性,不如烂笔头初学者,请大佬多多指教创建sedtest.txt文本查看最后一行数据,可以通过sed -n '$p' sedTest.txttail -n 1 sedTest.txt
2020-10-21 10:11:24 256
转载 Sql常见面试题
Sql常见面试题 受用了1.用一条SQL语句 查询出每门课都大于80分的学生姓名name kecheng fenshu张三语文 81张三数学 75李四语文 76李四数学 90王五语文 81王五数学 100王五英语 90A: select distinct name from table where name no...
2020-10-16 10:14:23 1612
原创 spark 内存分布
spark 内存分配:spark版本1.6之前 静态内存管理 堆内内存分布:存储内存storage 、执行内存 Execution、其他内存 other存储内存:用于缓存RDD数据和broadcast数据,占系统内存的60%执行内存:用于缓存在shuffer过程中的中间数据 占系统内存的20%其他内存:用户定义的数据结构或spark内部元数据 占系统内存的20%推外内存分布 存储内存和执行内存 各占50%spark1.6之后 统一内存管理堆内内存分布:存储内存storage...
2020-10-14 09:55:00 412
原创 java.lang.reflect.InvocationTargetException 错误
mysql错误java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.inv...
2020-05-22 15:52:43 21103
原创 正则表达式 匹配 邮箱
[a-zA-Z0-9_.+-]+@[a-zA-Z0-9_-]+\.[a-zA-Z0-9-.]+emaillist = re.findall(r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9_-]+\.[a-zA-Z0-9-.]+', plate_body.get_text())
2020-04-22 20:08:39 1347
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人