buerba-CSDN博客

原创 hive中union all 报错Dag submit failed due to 1-1 Edge. Destination vertex parallelism must match source

在 Apache Hive 中使用UNION ALL时遇到 “Dag submit failed due to 1-1 Edge. Destination vertex parallelism must match source vertex” 这样的错误通常与底层执行引擎（如 Tez 或 MapReduce）的并行度配置有关。这个错误表明在作业的某个阶段，源顶点和目标顶点的并行度（即并行任务的数量）不匹配。

2024-07-25 15:22:02 673

原创 Pyspark：使用spark-submit运行文件时执行Jupyter命令时出错

运行pyspark并在Jupyter笔记本上运行脚本。但是，当我尝试使用spark-submit从终端运行文件时，出现以下错误：Error executing Jupyter command file path [Errno 2] No such file or directory解决方法：发生这些问题是因为您已将jupyter设置为运行pyspark脚本。现在，您应该取消设置PYSPARK_DRIVER_PYTHON相同的变量命令，$ unset PYSPARK_DRIVER_PYTHON然后再次

2020-12-07 16:44:56 686

原创 CreateDataFrame

package com.bdqn.practiseimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, SparkSession}object CreateDataFrame {def main(args: Array[String]): Unit = {//TODO 创建一个SparkSession对象val spark: SparkSession = SparkSession.builder()

2020-11-12 07:34:31 328

原创 LianXi50

package com.bdqnimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, SparkSession}object LianXi50 {def main(args: Array[String]): Unit = {//TODO 创建一个SparkSession对象val spark: SparkSession = SparkSession.builder() .master("loca

2020-11-12 07:34:05 146

原创 UpdateStateByKey

package cn.kgc.day0819.test05import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object UpdateStateByKeyDemo extends App {//TODO 创建一个spark streamingContextval conf = new SparkConf().setMaster(“local[*]”).setAp

2020-11-12 07:32:30 154

原创 Join

package cn.kgc.day0819.test02import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.streaming.{Seconds, StreamingContext}object JoinDemo extends App {val conf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“hdfsDemo”)v

2020-11-12 07:31:52 80

原创 Transform

package cn.kgc.day0819.test03import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}object TransformDemo extends App {val conf=new SparkConf().setAppName(“transfor

2020-11-12 07:31:13 66

原创 HDFSInput

package cn.kgc.day0819.test02import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}object HDFSInputDStreamDemo extends App {val conf: SparkConf = new SparkConf().

2020-11-12 07:30:04 184

原创 wordcount

package cn.kgc.day0819.test01import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object Demo01 extends App {//TODO 创建一个spark StreamingCo

2020-11-12 07:29:38 61

原创 SparkStreamingWindow

package cn.kgc.day0819.test10import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamingWindowDemo extends App {//TODO 创建一

2020-11-12 07:28:28 64

原创 SaveAsTextFiles

package cn.kgc.day0819.test04import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/**━━━━━━神兽出没━━━━━━┏┓　　　┏┓┏┛┻━━━┛┻┓┃　　　　　　　┃┃　　　━　　　┃┃　┳┛　┗┳　┃┃　　　　　　　┃┃　　　┻　　　┃┃　　　　　　　┃┗━┓　　　┏━┛

2020-11-12 07:27:51 168

原创 SparkSQLSparkStreaming

package cn.kgc.day0819.test06import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object SparkSQL

2020-11-12 07:27:10 96

原创日志处理

事例：1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"C6816QZ0@gmail.com","mid":"489","nw":"3G","l":"es","vc":"4","hw":"640*960","ar":"MX","uid":"489","t":"1593123253541","la":"5.2","md":"sumsung-18","vn":"1.3.4","ba":"Sumsung","sr":"I"},"a

2020-11-09 20:18:03 84

原创 practice2

hdfs dfs -mkdir -p /app/data/examhdfs dfs -put /opt/baos/answer_question.log /app/data/exam2.在 Spark-Shell 中，加载 HDFS 文件系统 answer_question.log 文件，并使用 RDD 完成以下分析，也可使用 Spark 的其他方法完成数据分析。（20 分）①提取日志中的知识点 ID，学生 ID，题目 ID，作答结果 4 个字段的值logRDD.map(x=>x.spl

2020-10-21 15:44:12 225

原创正则表达式语法

1、正则表达式的作用正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式的作用可以概括为三个方面：测试字符串内模式、替换文本、基于模式匹配从字符串中提取子字符串。2、正则表达式语法　　正则表达式是由普通字符（如a-z）以及特殊字符（“元字符"）组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将字符串模式与搜索资源进行匹

2020-10-21 11:56:53 459 1

原创 mongodb操作使用

[root@lijia1 mongodb3222]# mkdir -p /var/lib/mongo[root@lijia1 mongodb3222]# mkdir -p /var/log/mongodbvi /etc/profileexport MONGODB_HOME=/opt/bigdata/mongodb3222export PATH=PATH:PATH:PATH:MONGODB_HOME/bin[root@lijia1 mongodb3222]# mongod --dbpath /var

2020-10-21 11:56:01 79

原创 kafka安装使用笔记

kafka-2.11-2.0.0[root@lijia1 config]# vi ./server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://zhang:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=zhang:2181delete.topic.enable=true// 配置环境变量export KAFKA_HOME=/opt/bigdata/k

2020-10-21 11:55:05 74

原创 flume安装使用笔记

(base) [root@lijia1 install]# tar -zxf flume-ng-1.6.0-cdh5.14.0.tar.gz -C …/bigdata/(base) [root@lijia1 bigdata]# mv apache-flume-1.6.0-cdh5.14.0-bin/ flume160514(base) [root@lijia1 bigdata]# cd ./flume160514/(base) [root@lijia1 flume160514]# cd ./conf/

2020-10-21 11:54:21 77

原创 HBase基本操作

列出所有命名空间list_namespace创建命名空间create_namespace ‘name’列出hbase中命名空间中的所有表list_namespace_tables ‘name’统计表中行的数量count ‘命名空间:表名’每次读取1000行count ‘命名空间:表名’ ,{ INTERVAL => 1000 }退出exit显示表的相关的详细信息describe ‘表名’使表有效enable ‘表名’使表无效disable ‘表名’创建表creat

2020-10-21 11:53:33 102

原创 practice1

一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句，如不提交则不得分。2.带有分析结果的功能，请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU（Standard Product Unit ，标准产品单元）数据，包含了外卖平台某地区一时间的外卖信息。具体字段说明如下：四、功能要求1.数据准备（10 分）请在 HDFS 中创建目录/app/dat

2020-10-13 17:25:44 273

原创 centos安装python3，Anaconda3安装以及Jupyter和pyspark集成

安装python31，安装相应的编译工具yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-develyum install -y libffi-devel zlib1g-devyum inst

2020-08-10 20:21:02 453

buerba的博客

原创 hive中union all 报错Dag submit failed due to 1-1 Edge. Destination vertex parallelism must match source

原创 Pyspark：使用spark-submit运行文件时执行Jupyter命令时出错

原创 CreateDataFrame

原创 LianXi50

原创 UpdateStateByKey

原创 Join

原创 Transform

原创 HDFSInput

原创 wordcount

原创 SparkStreamingWindow

原创 SaveAsTextFiles

原创 SparkSQLSparkStreaming

原创日志处理

原创 practice2

原创正则表达式语法

原创 mongodb操作使用

原创 kafka安装使用笔记

原创 flume安装使用笔记

原创 HBase基本操作

原创 practice1

原创 centos安装python3，Anaconda3安装以及Jupyter和pyspark集成

原创 hive安装简单过程

原创实例演示hive的静态分区和动态分区

原创 Java&SQL面试常见

原创根据官网快速安装hadoop

原创安装hadoop集群和zookeeper

原创 Linux Shell编程的简单用法

原创 ELK的安装配置，详细

原创使用jdbc连接数据库（单例模式）

原创 Linux常用简单命令

原创安装Linux系统和MySQL并连接sqlyog

原创用mybatis做一个简单的图书管理系统

空空如也

空空如也