自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 hive中union all 报错Dag submit failed due to 1-1 Edge. Destination vertex parallelism must match source

在 Apache Hive 中使用UNION ALL时遇到 “Dag submit failed due to 1-1 Edge. Destination vertex parallelism must match source vertex” 这样的错误通常与底层执行引擎(如 Tez 或 MapReduce)的并行度配置有关。这个错误表明在作业的某个阶段,源顶点和目标顶点的并行度(即并行任务的数量)不匹配。

2024-07-25 15:22:02 643

原创 Pyspark:使用spark-submit运行文件时执行Jupyter命令时出错

运行pyspark并在Jupyter笔记本上运行脚本。但是,当我尝试使用spark-submit从终端运行文件时,出现以下错误:Error executing Jupyter command file path [Errno 2] No such file or directory解决方法:发生这些问题是因为您已将jupyter设置为运行pyspark脚本。现在,您应该取消设置PYSPARK_DRIVER_PYTHON相同的变量命令,$ unset PYSPARK_DRIVER_PYTHON然后再次

2020-12-07 16:44:56 673

原创 CreateDataFrame

package com.bdqn.practiseimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, SparkSession}object CreateDataFrame {def main(args: Array[String]): Unit = {//TODO 创建一个SparkSession对象val spark: SparkSession = SparkSession.builder()

2020-11-12 07:34:31 319

原创 LianXi50

package com.bdqnimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, SparkSession}object LianXi50 {def main(args: Array[String]): Unit = {//TODO 创建一个SparkSession对象val spark: SparkSession = SparkSession.builder() .master("loca

2020-11-12 07:34:05 139

原创 UpdateStateByKey

package cn.kgc.day0819.test05import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object UpdateStateByKeyDemo extends App {//TODO 创建一个spark streamingContextval conf = new SparkConf().setMaster(“local[*]”).setAp

2020-11-12 07:32:30 151

原创 Join

package cn.kgc.day0819.test02import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.streaming.{Seconds, StreamingContext}object JoinDemo extends App {val conf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“hdfsDemo”)v

2020-11-12 07:31:52 74

原创 Transform

package cn.kgc.day0819.test03import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}object TransformDemo extends App {val conf=new SparkConf().setAppName(“transfor

2020-11-12 07:31:13 61

原创 HDFSInput

package cn.kgc.day0819.test02import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}object HDFSInputDStreamDemo extends App {val conf: SparkConf = new SparkConf().

2020-11-12 07:30:04 180

原创 wordcount

package cn.kgc.day0819.test01import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object Demo01 extends App {//TODO 创建一个spark StreamingCo

2020-11-12 07:29:38 56

原创 SparkStreamingWindow

package cn.kgc.day0819.test10import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamingWindowDemo extends App {//TODO 创建一

2020-11-12 07:28:28 57

原创 SaveAsTextFiles

package cn.kgc.day0819.test04import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/**━━━━━━神兽出没━━━━━━┏┓   ┏┓┏┛┻━━━┛┻┓┃       ┃┃   ━   ┃┃ ┳┛ ┗┳ ┃┃       ┃┃   ┻   ┃┃       ┃┗━┓   ┏━┛

2020-11-12 07:27:51 163

原创 SparkSQLSparkStreaming

package cn.kgc.day0819.test06import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object SparkSQL

2020-11-12 07:27:10 86

原创 日志处理

事例:1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"C6816QZ0@gmail.com","mid":"489","nw":"3G","l":"es","vc":"4","hw":"640*960","ar":"MX","uid":"489","t":"1593123253541","la":"5.2","md":"sumsung-18","vn":"1.3.4","ba":"Sumsung","sr":"I"},"a

2020-11-09 20:18:03 78

原创 practice2

hdfs dfs -mkdir -p /app/data/examhdfs dfs -put /opt/baos/answer_question.log /app/data/exam2.在 Spark-Shell 中,加载 HDFS 文件系统 answer_question.log 文件,并使用 RDD 完成 以下分析,也可使用 Spark 的其他方法完成数据分析。(20 分)①提取日志中的知识点 ID,学生 ID,题目 ID,作答结果 4 个字段的值logRDD.map(x=>x.spl

2020-10-21 15:44:12 220

原创 正则表达式语法

1、正则表达式的作用正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式的作用可以概括为三个方面:测试字符串内模式、替换文本、基于模式匹配从字符串中提取子字符串。2、正则表达式语法  正则表达式是由普通字符(如a-z)以及特殊字符(“元字符")组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将字符串模式与搜索资源进行匹

2020-10-21 11:56:53 436 1

原创 mongodb操作使用

[root@lijia1 mongodb3222]# mkdir -p /var/lib/mongo[root@lijia1 mongodb3222]# mkdir -p /var/log/mongodbvi /etc/profileexport MONGODB_HOME=/opt/bigdata/mongodb3222export PATH=PATH:PATH:PATH:MONGODB_HOME/bin[root@lijia1 mongodb3222]# mongod --dbpath /var

2020-10-21 11:56:01 72

原创 kafka安装使用笔记

kafka-2.11-2.0.0[root@lijia1 config]# vi ./server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://zhang:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=zhang:2181delete.topic.enable=true// 配置环境变量export KAFKA_HOME=/opt/bigdata/k

2020-10-21 11:55:05 65

原创 flume安装使用笔记

(base) [root@lijia1 install]# tar -zxf flume-ng-1.6.0-cdh5.14.0.tar.gz -C …/bigdata/(base) [root@lijia1 bigdata]# mv apache-flume-1.6.0-cdh5.14.0-bin/ flume160514(base) [root@lijia1 bigdata]# cd ./flume160514/(base) [root@lijia1 flume160514]# cd ./conf/

2020-10-21 11:54:21 70

原创 HBase基本操作

列出所有命名空间list_namespace创建命名空间create_namespace ‘name’列出hbase中命名空间中的所有表list_namespace_tables ‘name’统计表中行的数量count ‘命名空间:表名’每次读取1000行count ‘命名空间:表名’ ,{ INTERVAL => 1000 }退出exit显示表的相关的详细信息describe ‘表名’使表有效enable ‘表名’使表无效disable ‘表名’创建表creat

2020-10-21 11:53:33 97

原创 practice1

一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU(Standard Product Unit ,标准产品单元)数据,包含了外卖平台某地区一时间的外卖信息。具体字段说明如下:四、功能要求1.数据准备(10 分)请在 HDFS 中创建目录/app/dat

2020-10-13 17:25:44 262

原创 centos安装python3,Anaconda3安装以及Jupyter和pyspark集成

安装python31,安装相应的编译工具yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-develyum install -y libffi-devel zlib1g-devyum inst

2020-08-10 20:21:02 450

原创 hive安装简单过程

前置以安装好hadoop,zookeeper,MySQL看个人需求修改mysql登陆密码,赋权是必要的use mysql;select host,user,password from user;delete from user where user=' ' //删除所有空用户update user set password=password('你的密码') where user='root'flush privileges;//刷新权限grant all privileges on *.* t

2020-07-23 16:40:37 182

原创 实例演示hive的静态分区和动态分区

Hive分区(Partition)分区主要用于提高性能分区列的值将表划分为一个个的文件夹查询时语法使用"分区"列和常规列类似查询时Hive会只从指定分区查询数据,提高查询效率注:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。所以可以这样理解,当我们在插入数据的时候指定分区,其实就是新建一个目录或者子目录,或者在原有的目录上添加数据文件。分为静态分区和动态分区示例演示一、静态分区创建数据,准备用性别分区打开hi

2020-07-08 20:01:09 693

原创 Java&SQL面试常见

正则表达式“\d+.?\d*”,在匹配下列字符串时结果失败的是(C)。A.12.5 B.1.25 C.以上都成功 D.以上都失败注释:\d+ 表示可以出现1次或是n次数字.? 表示可以“.”可以出现一次,也可以不出现\d* 表示可以出现0次或是n次数字string、stringbuilder、stringbuffer 区别?stringbuilder、stringbuffer 哪个是线程不安全?(1) 可变与不可变String 类中使用字符数组保存字符串,因为有“final”修饰符,所以可以

2020-07-02 00:42:26 465

原创 根据官网快速安装hadoop

环境准备一个纯净版的centos7 虚拟机,配置好静态ip,主机名,主机映射配置静态ipvi /etc/sysconfig/network-scripts/ifcfg-ens33 -----------------------------------------------------TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6INIT

2020-06-30 20:10:47 178

原创 安装hadoop集群和zookeeper

1.2 centos环境配置关闭防火墙停止防火墙服务systemctl stop firewalld禁用防火墙,下次开机启动后防火墙服务不再启动systemctl disable firewalld生成秘钥: ssh-keygen -t rsa -P “”cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys开启远程免密登录配置[root@xiu1 ~]# ssh-copy-id -i .ssh/id_rsa.pub -p

2020-06-28 23:49:31 303

原创 Linux Shell编程的简单用法

第一个Shell脚本程序1、#! 是一个约定的标记,它告诉系统这个脚本需要什么解释器来执行2、echo 控制台输出建立 test.sh测试文件vi /tmp/test.sh#!/bin/bash echo "Hello World"保存退出后赋予文件权限chmod +x test.sh./test.sh变量定义及使用shell编程中分为两种变量,第一种是我们自己定义的变量(自定义变量),第二种是Linux已定义的环境变量#!/bin/bashecho ${PATH}#使

2020-06-22 20:20:13 257

原创 ELK的安装配置,详细

ES简介ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎。特点是:高可用,高扩展,是一种NOSQL的数据存储工具ES安装前的准备(elk安装包版本要求一致)下载:elasticsearch-6.2.2.tar.gzelasticsearch-head-master.zipkibana-6.2.2-linux-x86_64.tar.gzlogstash-6.2.2.tar.gznode-v8.9.1-linux-x64.tar.gzjdk-

2020-06-19 00:24:36 239

原创 使用jdbc连接数据库(单例模式)

配置连接数据库文件在根目录下新建resources文件,并点亮如图在文件夹内新建db.properties配置数据库属性文件,文件内容driver=com.mysql.jdbc.Driver url=jdbc:mysql://192.168.56.29:3306/qMall //连接的数据库地址user=kb07 //数据库登陆用户名pwd=ok //数据库登陆用户密码新建class文件使用单例模式读取数据库属性文件public class Prop { //使用单例模式保证

2020-06-18 00:04:00 1828

原创 Linux常用简单命令

目录结构:/系统根目录、~当前用户家目录、其他普通目录切换目录cd 目录—绝对路径( / )、相对路径( …/返回上一级)清屏:clear 或 ctrl +l查看当前绝对路径:pwd查看当前目录下内容:ls: -a-i-l文件夹操作:增:mkdir 目录路径删:rmdir 目录路径改:mv 原路径 新路径文件操作:增:touch 文件路径删:rm 文件路径删库跑路必备技能:rm-rf改:mv 原路径 新路径复制:cp 原路径 新路径文件内容操作:head -n 文件

2020-06-16 20:03:48 319

原创 安装Linux系统和MySQL并连接sqlyog

一.安装Linux系统1.安装Oracle VM VitualBox,准备好linu光盘镜像2.点击新建3.设置名称内存分配4G以上,系统选择64位4.文件夹位置选择固态,分配30G以上5.进入设置常规 在高级里将共享粘贴板和拖放更改为双向系统 主板启动顺序设置为光驱硬盘和网络,不要软驱存储 分配光驱加载linux镜像网络 启用网络1和网络2 网络1选择仅主机网络 网卡2选择网络地址转换(NAT)6.启动Linux选择第一项直接安装设置时区,双网卡打开,自动分区begin ins

2020-06-16 14:45:40 1985

原创 用mybatis做一个简单的图书管理系统

在项目开始前先将数据库中的关系表建立,先分析需要几个模块表,用户,图书,类别,租借,购买,简单的分成这五个。用户表CREATE TABLE IF NOT EXISTS `user`(user_id INT(11) PRIMARY KEY AUTO_INCREMENT,user_name VARCHAR(20),`password` VARCHAR(20),grade INT(11),phone VARCHAR(20),user_type INT(11));图书表CREATE TABL

2020-06-16 01:53:07 3304

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除