![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 51
buside
这个作者很懒,什么都没留下…
展开
-
安装CDH出现file /opt/cloudera/parcels/.flood/CDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcel...does not exist
安装CDH出现file /opt/cloudera/parcels/.flood/CDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcel...does not exist_黄智霖的博客-CSDN博客转载 2021-12-23 19:41:39 · 636 阅读 · 0 评论 -
/OPT/CLOUDERA/目录更换操作
描述:CDH的parcel等文件默认放在/opt/cloudera目录下,但一般情况下这个目录的磁盘空间都比较小,需要把这些文件放到空间大的目录,可以通过修改配置文件来做,但这样比较麻烦,可能还会有一些遗留问题,下面介绍一种使用软链接的方式解决:mkdir -p /data/cloudera/parcelmv /opt/cloudera/ /data/cloudera/parcel/ln -s /data/cloudera/parcel/cloudera/ /opt/cloudera这样文转载 2021-12-23 16:01:58 · 433 阅读 · 0 评论 -
Windows 下搭建kafka单机环境
在安装zookeeper前,请确认java环境已经正确安装和配置JAVA_HOME环境变量。否则无法启动zookeeper和kafka的。Kafka依赖zookeeper,在安装Kafka之前首先运行zookeeper服务。1.安装ZookeeperKafka的运行依赖于Zookeeper,所以在运行Kafka之前我们需要安装并运行Zookeeper 3.4.131、下载安装文件: http://mirror.bit.edu.cn/apache/zookeeper/2、解压文件(本文解..原创 2021-12-01 14:31:07 · 1912 阅读 · 0 评论 -
spark 操作
1、TransformationsTransformation Meaning map(func) Return a new distributed dataset formed by passing each element of the source through a functionfunc. filter(func) Return a new dataset formed by selecting those elements of the source on wh.翻译 2021-06-24 16:19:33 · 93 阅读 · 0 评论 -
centos下设置Es开机自启动
1、编写脚本在目录/usr/init.d/下新建脚本el-start.sh#!/bin/sh# chkconfig: 345 99 10# description: Auto-starts elastic# /etc/init.d/el-start# elastic auto-start# Source function library.#. /etc/init.d/functions# source networking configuration.#. /etc/sysconf原创 2021-06-24 10:28:40 · 1263 阅读 · 0 评论 -
运行spark程序时报错org.apache.hadoop.security.AccessControlException: Permission denied:
1、问题:运行spark程序时报一下错误2、解决方案关闭权限检测,在cloudera Manager中去掉dfs.permissions并重启HDFS即可原创 2021-05-10 15:02:45 · 666 阅读 · 0 评论 -
解决pyspark部署模式由client切换成cluster报错的问题
问题写了一个pyspark的代码,自定义了一些py文件import进来使用,并且通过shell脚本传8个参数,如下:#!/usr/bin/env bashspark-submit \ --master yarn \ --deploy-mode cluster \ --conf spark.shuffle.service.enabled=true \ --queue xxx \ --conf spark.dynamicAllocation.enab转载 2021-04-07 18:29:02 · 1470 阅读 · 0 评论 -
elasticsearch重建索引
参考 ElasticSearch(7.2.2)-es之如何重建索引转载 2021-03-05 17:15:23 · 258 阅读 · 0 评论 -
【Elasticsearch】Result window is too large, from + size must be less than or equal to: [10000]
引言线上环境使用Elasticsearch分页查询数据,发现最后一页的数据查询无结果返回,查询日志,发现是Elasticsearch报错:Result window is too large, from + size must be less than or equal to: [10000]…问题截图默认设置查询文档,可以看到,默认设置最大查询数量是10000.解决方法我们可以直接利用kibana工具,直接执行以下请求即可:PUT idx_user_info/_settings转载 2021-03-05 17:13:09 · 604 阅读 · 0 评论 -
pyspark 将dataframe写入elasticsearch
1、创建spark与elasticsearch的连接需要使用elasticsearch的依赖包,elasticsearch-spark-20_2.11-7.5.1.jar,注意版本要与elasticsearch保持一致2、spark写入elasticsearchfrom collections import OrderedDict# 将结果写入esoptions = OrderedDict()options['es.nodes'] = 'your_ip'options['es.port原创 2021-03-05 14:43:11 · 952 阅读 · 0 评论 -
搭建es集群
一、准备条件1、ElasticSearch版本 7.5.12、jdk依赖环境已安装3、三台服务器,其IP地址分别为 192.168.0.100、192.168.0.101、192.168.0.102二、elasticsearch.yml 配置环境参数 说明 cluster.name 集群名称,相同名称为一个集群 node.name 节点名称,集群模式下每个节点名称唯一 node.master 当前节点是否可以被选举为master节点,是:true、否:原创 2021-03-05 14:04:20 · 535 阅读 · 1 评论