qq_32068809的博客

私信 关注
李新兆
码龄5年
  • 129,529
    被访问量
  • 16
    原创文章
  • 208,454
    作者排名
  • 3
    粉丝数量
  • 目前就职 中电金信软件有限公司
  • 于 2015-10-16 加入CSDN
获得成就
  • 获得24次点赞
  • 内容获得22次评论
  • 获得59次收藏
荣誉勋章
兴趣领域
  • #大数据
    #spark
TA的专栏
  • 大数据
    12篇
  • scala
    1篇
  • Quartz
  • java
  • Python
    1篇
  • linux
  • 虚拟机
  • 前端
    2篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

滴滴夜莺分布式部署方案

我们的规划是在三台服务器上部署夜莺主要的服务组件以及redis和nginx,并在所有要监控的服务器上部署夜莺的agent服务,agent服务将用来收集要监控的服务器数据,并将数据发送到夜莺的主要服务端用作监控告警,下面表格是我们在三个节点上的部署的夜莺主要服务组件和相关依赖服务:集群节点规划 节点 monapi transfer job ams index judge rdb tsdb redis nginx mysql node0
原创
31阅读
1评论
0点赞
发布博客于 1 月前

Filebeat+Logstash+Elasticsearch收集spark日志分析

数据流程图如下:一、配置Filebeat编辑filebeat.yml文件,内容如下:# ====================== 输入 ===============================filebeat.inputs:- type: log enabled: true paths: - /data/log/hadoop-yarn/hadoop-cmf-yarn-NODEMANAGER*.out - /data/yarn/container-logs...
原创
13阅读
0评论
0点赞
发布博客于 1 月前

CDH6.3.2离线安装(整合kerberos)

一、安装前准备设置HOST vi /etc/hosts 关闭防火墙 sudo systemctl disable firewalldsudo systemctl stop firewalld 设置SELinux vi /etc/selinux/config 将SELINUX=enforcing 改为SELINUX=permissive,然后重启服务器,或者执行下面命令: setenforce 0 开启NTP服务 # 安装NTP服务...
原创
156阅读
4评论
0点赞
发布博客于 1 月前

logstash-input-jdbc-4.3.19

logstash jdbc插件,已压缩成zip格式,可以直接集成到logstash
gem
发布资源于 2 月前

logstash-input-kafka-9.1.0.gem

logstash接收kafka插件,已经压缩成zip格式,可以直接集成到logstash
gem
发布资源于 2 月前

kafka+kerberos认证后生产消费问题

前提:操作机已经通过kinit -kt方式认证一、生产者1、创建jaas.conf,向其添加内容:KafkaClient{com.sun.security.auth.module.Krb5LoginModule requireduseTicketCache=true;};2、将jaas.conf添加到环境变量export KAFKA_OPTS="-Djava.security.auth.login.config=/home/klapp/jaas.conf"3、创建生产者配置文件produce
原创
117阅读
1评论
0点赞
发布博客于 2 月前

HPLSQL连接Hive(Kerberos认证)指南

1、下载hplsql安装包:地址:http://www.hplsql.org/download ,当前测试环境CDH为6.3版本,选择下载0.3.17版的就可以2、解压到某路径下,参考官网就行3、配置hplsql-site.xml主要改下hive2的jdbc连接参数:<property> <name>hplsql.conn.hive2conn</name> <value>org.apache.hive.jdbc.HiveDriver;jdbc:hiv
原创
53阅读
0评论
0点赞
发布博客于 2 月前

Hive+Zookeeper+Kerberos配置HA方法

一般在cdh上配置,如图:具体的几个配置项如下:hive.server2.support.dynamic.service.discovery=truehive.server2.zookeeper.namespace=hiveserver2_zkhive.zookeeper.quorum=test-hadoop-pc06:2181,test-hadoop-pc07:2181,test-hadoop-pc08:2181hive.zookeeper.client.port=2181hive.serv.
原创
75阅读
0评论
0点赞
发布博客于 2 月前

滴滴kafka-manager监控CDH版kafka(带kerberos认证)

对于CDH环境的kafka,并且带有kerberos认证的,部署kafka-manager时需要注意两点:1、接入集群要用的安全协议配置这里直接给个模板:{ "security.protocol":"SASL_PLAINTEXT", "sasl.mechanism":"GSSAPI", "sasl.kerberos.service.name":"kafka", "sasl.jaas.config":"com.sun.security.auth.module.Krb5LoginMo...
原创
131阅读
1评论
0点赞
发布博客于 2 月前

refreshUserToGroupsMappings: FileSystem file:/// is not an HDFS file

我们当前大数据集群环境为CDH6.3,集群中有台主机没有分配任何服务,在该机器上执行命令hdfs dfsadmin报错:[root@prod-bigdata-pc16 ~]# hdfs dfsadmin -refreshUserToGroupsMappings refreshUserToGroupsMappings: FileSystem file:/// is not an HDFS file system Usage: hdfs dfsadmin [-refreshUserToGroupsMapping
原创
86阅读
0评论
0点赞
发布博客于 3 月前

Spark通过jdbc方式读写ClickHouse

现在是2020年9月,由于目前还没有Spark整合ClickHouse的连接器,所以通过spark读写ClickHouse的方式只能是jdbc了,另外github上有个连接器,需要自己打包发布,感兴趣的可以研究下,地址https://github.com/wangxiaojing/spark-clickhouse以下是spark读写clickHouse的代码:/* 读取 */ def select(spark:SparkSession): Unit ={ spark.read
原创
980阅读
2评论
0点赞
发布博客于 5 月前

Ext-2.2的下载链接

http://archive.cloudera.com/gplextras/misc/ext-2.2.zip
原创
39阅读
0评论
0点赞
发布博客于 7 月前

如何在StructuredStreaming中使用groupBy、groupByKey等算子时降低Task数量(调优)

我在本地IDEA上跑spark程序,每当调用groupBy、groupByKey等算子时就非常耗时 ,从WebUI上看涉及的stage有200多个任务,但我就用了一条数据,并发度也不高,代码如下所示: //接入 val source = spark.readStream.format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "test") .option("startingOffsets","latest") .load() //处理 import spark.implicits._ val process = source .select("value") .as[String] .map(e => e.split(" ")) .map(e =>(e(0),e(1))) .selectExpr("CAST(_1 AS STRING) as key", "CAST(_2 AS DOUBLE) as value") .as[(String,Double)] .groupBy("key")//这个算子特别耗时 .mean("value") //输出 val query = process.writeStream .format("console") .outputMode("complete") .start() query.awaitTermination() 下面时WebUI上的Task监控 ![图片说明](https://img-ask.csdn.net/upload/202006/24/1593004600_193955.jpg) 每条消息要处理一分多钟,我该如何优化?
1回答
发布问题于 8 月前

Yarn的ResourceManager给某个NodeManager发送Shutdown信号的原因有哪些

事情是这样的,有次重启集群,发现一个nodeManger节点启动不开,检查后发现是因为该节点被列入了禁用名单node_exclude.txt,于是从禁用名单中移除了该节点,再开启nodeManager后也能正常开启。(但是等下一次再重启集群时,该节点又被列入 了黑名单,没找出是什么原因。另外集群是用CDH搭建的,异常节点的机器曾经损坏过,然后在CDH客户端上直接删除了该节点,更换上新服务器后又加入集群代替原先节点,不知道是不是直接删除节点的原因) 这是ResourceManager的一段日志: 2020-05-12 07:16:27,848 INFO org.mortbay.log: Started HttpServer2$SelectChannelConnectorWithSafeStartup@hadoop2:8088 2020-05-12 07:16:27,849 INFO org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: Updating the current master key for generating delegation tokens 2020-05-12 07:16:27,852 INFO org.apache.hadoop.yarn.webapp.WebApps: Web app /cluster started at 8088 2020-05-12 07:16:28,539 INFO org.apache.hadoop.yarn.webapp.WebApps: Registered webapp guice modules 2020-05-12 07:16:28,551 INFO org.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl: hadoop1:8041 Node Transitioned from NEW to RUNNING 2020-05-12 07:16:28,554 INFO org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler: Added node hadoop1:8041 cluster capacity: <memory:2048, vCores:4>__ 2020-05-12 07:16:28,570 INFO org.apache.hadoop.ipc.CallQueueManager: Using callQueue: class java.util.concurrent.LinkedBlockingQueue queueCapacity: 100 2020-05-12 07:16:28,575 INFO org.apache.hadoop.ipc.Server: Starting Socket Reader #1 for port 8033 2020-05-12 07:16:28,578 INFO org.apache.hadoop.yarn.factories.impl.pb.RpcServerFactoryPBImpl: Adding protocol org.apache.hadoop.yarn.server.api.ResourceManagerAdministrationProtocolPB to the server 2020-05-12 07:16:28,590 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting 2020-05-12 07:16:28,599 INFO org.apache.hadoop.ipc.Server: IPC Server listener on 8033: starting 2020-05-12 07:16:29,856 INFO org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService: Disallowed NodeManager from hadoop2, Sending SHUTDOWN signal to the NodeManager. 2020-05-12 07:16:34,624 INFO org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService: Disallowed NodeManager from hadoop2, Sending SHUTDOWN signal to the NodeManager. 2020-05-12 07:16:40,332 INFO org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService: Disallowed NodeManager from hadoop2, Sending SHUTDOWN signal to the NodeManager. 2020-05-12 07:16:51,052 INFO org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService: Disallowed NodeManager from hadoop2, Sending SHUTDOWN signal to the NodeManager. 这是被关闭的NodeManager日志: 2020-05-12 07:16:51,182 INFO org.mortbay.log: Stopped HttpServer2$SelectChannelConnectorWithSafeStartup@hadoop2:8042 2020-05-12 07:16:51,283 INFO org.apache.hadoop.ipc.Server: Stopping server on 8041 2020-05-12 07:16:51,285 INFO org.apache.hadoop.ipc.Server: Stopping IPC Server listener on 8041 2020-05-12 07:16:51,285 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.logaggregation.LogAggregationService: org.apache.hadoop.yarn.server.nodemanager.containermanager.logaggregation.LogAggregationService waiting for pending aggregation during exit 2020-05-12 07:16:51,285 INFO org.apache.hadoop.ipc.Server: Stopping IPC Server Responder 2020-05-12 07:16:51,286 WARN org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl is interrupted. Exiting. 2020-05-12 07:16:51,299 INFO org.apache.hadoop.ipc.Server: Stopping server on 8040 2020-05-12 07:16:51,299 INFO org.apache.hadoop.ipc.Server: Stopping IPC Server listener on 8040 2020-05-12 07:16:51,301 INFO org.apache.hadoop.ipc.Server: Stopping IPC Server Responder 2020-05-12 07:16:51,301 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.ResourceLocalizationService: Public cache exiting 2020-05-12 07:16:51,301 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: Stopping NodeManager metrics system... 2020-05-12 07:16:51,303 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: NodeManager metrics system stopped. 2020-05-12 07:16:51,303 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: NodeManager metrics system shutdown complete. 2020-05-12 07:16:51,304 FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager org.apache.hadoop.yarn.exceptions.YarnRuntimeException: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from hadoop2, Sending SHUTDOWN signal to the NodeManager. at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:215) at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193) at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:120) at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceStart(NodeManager.java:329) at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193) at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:563) at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:609) Caused by: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from hadoop2, Sending SHUTDOWN signal to the NodeManager. at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:283) at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:209) ... 6 more 2020-05-12 07:16:51,305 INFO org.apache.hadoop.yarn.server.nodemanager.NodeManager: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NodeManager at hadoop2/192.168.111.102 ************************************************************/
1回答
发布问题于 8 月前

windows+IDEA+sbt配置国内镜像

IDEA自带的SBT默认根目录是用户目录下的.sbt,比如我的是C:\Users\lixz\.sbt,在.sbt目录下创建名为repositories的文件该文件输入如下内容:[repositories] local aliyun: https://maven.aliyun.com/nexus/content/groups/public/ central: https://repo1.maven.org然后保存即可,接下来在IDEA中重新加载依赖就可以使用上面repositories...
原创
537阅读
0评论
0点赞
发布博客于 8 月前

VNC-Viewer-6.20.529-Windows.exe

这是一个VNC服务连接客户端安装包(windows版),该版本轻量快捷,能够很好的支持win10(x86/x64)系统,需要其他版本私信我
exe
发布资源于 8 月前

Flink接收Kafka中的Avro序列化消息

在Flink官网中可以看到flink接收kafka数据的简单示例程序Properties properties = new Properties();properties.setProperty("bootstrap.servers", "localhost:9092");// only required for Kafka 0.8properties.setProperty("zoo...
原创
2191阅读
4评论
0点赞
发布博客于 1 年前

Flink写入Redis的两种方式

1、使用flink提供的RedisSink(1)添加maven依赖<dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.11</artifactId> <version>1.1-SNA...
原创
1651阅读
3评论
2点赞
发布博客于 1 年前

windows下用thrift预构建编译器生成的java代码有语法错误

我的IDL文件内容如下: ``` namespace java com service TestService { i32 test1(1:string tagName) } ``` 在这里只定义了一个服务TestService 使用thrift-0.12.0.exe编译后生成的java报错如下: ![图片说明](https://img-ask.csdn.net/upload/201906/26/1561535110_654451.png) 下面是用的jar包: ![图片说明](https://img-ask.csdn.net/upload/201906/26/1561535413_178399.png) 我直接用的thrift预构建编译器(thrift-0.12.0.exe),官方推荐源码安装,难道这个预构建的没法直接用吗还是咋了
1回答
发布问题于 2 年前

npm install 报错解决

npm安装cnpm时报各种关于package.json的解析错误,经过多次使用'npm cache clean --force'命令清除缓存再安装后最终报如下错误:npm ERR! code EINTEGRITYnpm ERR! sha1-wgdX/nLucSeOoP89h+XCyjDZ7fg= integrity checksum failed when using sha1: wanted ...
原创
62512阅读
5评论
3点赞
发布博客于 3 年前

npm WARN saveError ENOENT: no such file or directory解决

安装完成node.js后使用npm安装vue报错如下:C:\Users\lxz&gt;npm uninstall vueWcspnpm WARN saveError ENOENT: no such file or directory, open 'C:\Users\lxz\package.json'npm WARN enoent ENOENT: no such file or director...
原创
61090阅读
1评论
19点赞
发布博客于 3 年前

Windows下的Django安装

安装前首先确定已正确安装python,然后进入Django官网按照说明下载相应文件安装即可,官网提供了两种安装方式。方式一:使用pip安装使用pip安装Django比较方便,pip安装步骤如下:1、https://pypi.python.org/pypi/pip#downloads下载pip-9.0.1.tar.gz ,将该压缩包解压到某个目录,在cmd中切换到目录下,执行命令:p
原创
147阅读
0评论
0点赞
发布博客于 3 年前