自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 资源 (1)
  • 收藏
  • 关注

原创 Flink CDC Oracle 用户权限不足 ORA-01031: insufficient privileges

Flink cdc 实时抽取Oracle数据表,提示:ORA-01031: insufficient privileges

2022-10-26 14:36:16 3016 3

原创 字符集中文乱码转换为UTF8,如:å\u0085¬è¯\u0081ä¸\u009Aå\u008A¡ç±»å\u0088«æ\u009C\u0089误ï¼\u0081

字符集中文乱码转换为UTF8,如:å\u0085¬è¯\u0081ä¸\u009Aå\u008A¡ç±»å\u0088«æ\u009C\u0089误ï¼\u0081。

2022-09-15 19:28:58 20176

原创 oracle 查找、替换 字符串中的 换行符

oracle 中实现字符串中查找、替换换行符 chr(10)、chr(13)等。

2022-06-10 10:00:39 6514

原创 org.pentaho:pentaho-aggdesigner-algorithm:jar:5.1.5-jhyde Maven下载不下来

找了很多文章都提供以下两种方式1)设置maven镜像仓库2)pom文件增加不过我试了都没有解决问题。最终直接下载缺失的包,地址如下https://public.nexus.pentaho.org/#browse/search=keyword=pentaho-aggdesigner-algorithm将jar和pom放到maven对应路径下即可。pentaho-aggdesigner-algorithm-5.1.5-jhyde.jarpentaho-aggdesigner-algorithm-

2022-06-02 18:51:43 3934 9

原创 Apache Http Server安全漏洞解决

场景:公司使用的大数据集群云服务器,安全扫描出严重漏洞,扫描漏洞如下:安全漏洞扫描报告端口协议服务严重等级漏洞–ICMP–弱ICMP timestamp请求响应漏洞–UDP–弱允许Traceroute探测80TCPhttp严重 严重 严重 严重 严重 弱OpenSSL 安全漏洞(CVE-2022-0778) Apache HTTP Server 环境问题漏洞(CVE-2022-22720) Apache HTTP Server 输入验证错误漏

2022-04-21 13:50:47 10891 2

原创 基于CM管理的CDH6.3.2集群集成Atlas2.1.0

基于CM管理的CDH6.3.2集群集成Atlas2.1.0大数据平台进行数据治理需要,采用Apache Atlas进行数据治理。下载Atlas2.1.0版本源码包。下载https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz 到windows。前提CDH集群已经搭建完成,组件服务包含Hdfs、Hive、Hbase、Solr、Kafka、Sqoop、Zookeeper、Impala、Yarn、Sp

2022-03-25 11:18:42 3205 5

原创 基于CM管理的CDH集群集成Phoenix

基于CM管理的CDH集群集成Phoenix背景介绍:原有的CDH集群,以Hive+Hbase+Impala进行数据处理查询,Hbase而言语法难懂,不同于寻常的SQL,Impala而言速度查询速度太慢且无法进行记录的修改。故而考虑用Phoenix来集成Hbase、Hive以解决上述问题。前提:已经基于CM安装搭建CDH集群,本文采用parcels包的方式集成Phoenix到CDH集群。下载Phoenix Parcel包和Jar包并上传到CM-Server节点本文采用的phoenix版本包如下:..

2022-03-24 11:29:03 3147

原创 windows Server 2012 安装导入opencv-python 提示DLL找不到

项目背景:win server 2012 R2 + python3.6+opencv4.4.0+ffmpeg 实现视频图像处理问题描述:import cv2 报错dll找不到1.pip命令安装opencv:pip --default-timeout=100 install opencv-python==4.4.0.46 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com2.通过pip list 查看模块列表发现 numpy和

2021-12-27 16:37:54 5404 3

原创 基于CDH6.2.0 搭建大数据集群

Cloudera Manager集群搭建hostname按表格进行修改,/etc/hosts文件添加节点 Ip+hostnamehostnameiprolecdh-nn01172.16.0.188HadoopMaster,CM Server,Mysql,Hue,HS2cdh-nn02172.16.0.189Hadoop Master,CMAgent,HS2cdh-nn03172.16.0.190Hadoop Master,CMAgent,HS2,Impala

2021-12-09 11:56:50 2002

原创 org.apache.parquet.schema.InvalidSchemaException: A group type can not be empty. Parquet does not su

1.读取cvs文件数据写入parquet文件 val spark =SparkSession.builder().appName("test").master("local").getOrCreate() val file = "hdfs://clusters/test/demo.csv" val frame = spark.read.option("header","true").csv(file) val newfile = file.split("\\.")(0)+".parque

2021-07-21 17:58:01 1059

原创 Java 基于poi 读写excel文件( *.xlsx)

Java 通过poi读取excel文件需要使用XSSFWorkbook对象,需要如下依赖包 <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.1.0</version> </dependency> <dependency&g

2021-06-08 18:25:12 698

原创 org.apache.hadoop.security.AccessControlException

通过spark程序HDFS进行文件写入操作时,程序报错org.apache.hadoop.security.AccessControlException: Permission denied: user=admin, access=WRITE, inode="/mydata":root:supergroup:drwxr-xr-x,根据提示可知是程序使用的是admin用户,它没有写权限。报错信息如下:Exception in thread "main" org.apache.hadoop.security

2021-06-03 11:28:51 1471

原创 Java BufferedReader和BufferedWriter 实现按行读写文本数据

背景:将指定的生产业务数据按行写入文本文件中,以便后续分析。功能实现:按行写入、读取批量数据。本文使用BufferedWriter和BufferedReader以字符流方式读写文本数据。按行写数据到文本BufferedWriterwrite()方法向缓冲区写入数据newLine()写入换行符flush()将缓冲区数据刷写到外部文件,并清空缓冲区。 /** * 向指定文件中写入数据 * @param outFileName 文件路径 * @param conte

2021-05-12 11:35:18 2405

原创 Nifi 快速安装及文件同步操作

Nifi简单来说是一个数据拉取、数据处理以及数据分发的系统。Nifi运行需要JVM,需要Java 8版本。下载地址:nifi.apache.org/download 本文安装nifi-1.8.0-bin.tar.gz使用手册:http://nifi.apache.org/docs.html安装1.下载安装包wget -b http://mirror.bit.edu.cn/apache/nifi/1.8.0/nifi-1.8.0-bin.tar.gz2.解压安装包tar -zxf nifi

2021-05-06 15:49:36 759

原创 解决安装python模块库 Error:Read timed out

在使用python进行开发常常需要用到各式各样的模块库,往往pip install 模块库会给我们带来意想不到的惊喜!5分钟的下载时间长可以等待的?!结果出现Read time out! 连接超时!!如下图:百度了几篇文章,找到了一个比较有效的方法,就是在基础安装指令pip install model_name后拼接上-i http://pypi.douban.com/simple --trusted-host pypi.douban.com 使用镜像源。完整命令如下,替换model_name为目标模

2021-04-20 17:42:57 282

原创 windows10 安装python3

本人安装的是python3.6.4。python3.6.4下载链接:https://pan.baidu.com/s/1uQjMUQwsMWpjUN7bbWmX_Q 提取码:wshu安装1.双击软件包python-3.6.4-amd64.exe进行安装,“下一步”即可,选择自定义安装路径,我安装在D:\Python36。进入安装目录,可见一个python.exe文件,进入Scripts目录,可见pip.exe文件。2.添加环境变量。windows本地搜索“环境变量” ->“编辑系统环境变量”

2020-12-16 10:47:54 215

原创 Windos中安装labellmg教程

labelImg安装windows 10上安装,需要python3+Qt5组合。这里是引用安装Anaconda3.5.1.0 windows链接:https://pan.baidu.com/s/1Gdaaj8El759nA7np5L6LfQ提取码:vdka我下载的是64位的python3.6版本。然后双击安装,一般点选“for all person”。我安装目录为D:\Anaconda3510,安装成功后建议在环境变量path里面增加anaconda环境配置“D:\Anaconda3510”

2020-12-01 16:38:41 1073

原创 log4j 输出日志信息到文件中

Log4j由三个重要的组件构成:日志信息的优先级,日志信息的输出目的地,日志信息的输出格式。日志信息的优先级从高到低有ERROR、WARN、INFO、DEBUG,分别用来指定这条日志信息的重要程度;日志信息的输出目的地指定了日志将打印到控制台还是文件中;而输出格式则控制了日志信息的显示内容。log4j.properties 输出ERROR级别日志到控制台和文件中。log4j.rootLogger:指定日志级别和输出源,用逗号隔开。org.apache.log4j.ConsoleAppender:指定

2020-11-23 15:21:09 1890

原创 Linux中进程在后台执行

linux中某些服务启动后会占用当前的会话窗口,例如hive --service metastore命令,直接执行会把当前linux连接会话占用。直接启动服务进程hive --service metastore &通过jps命令,可以查看到一个新的RunJar进程这种情况下可以考虑让进程服务在后台启动执行,进程在后台执行命令 nohup+原命令+&nohup 的用途就是让提交的命令忽略 hangup 信号,标准输出和标准错误缺省会被重定向到 nohup.out 文件中。。一般我们

2020-11-23 14:38:32 200

原创 Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.elapsedMill

spark rdd操作报如下错误:Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.elapsedMillis()J这是由于依赖包版本不一致导致的。随后,我检查项目pom.xml文件 并没有导入相关依赖包,后来检查项目的 External Libraries 发现了该包,且版本为16.0.1。解决方法,pom.xml中导入依赖<dependency>

2020-10-19 16:03:25 4691

原创 快速安装mongodb

安装MongoDB1.配置yum源vi /etc/yum.repos.d/mongodb.repo-----------添加如下内容--------------------------[MongoDB]name=MongoDB Repositorybaseurl=http://repo.mongodb.org/yum/redhat/7Server/mongodb-org/4.0/x86_64/gpgcheck=0enabled=12.下载mongodb,遇到completed安装完成。

2020-10-14 15:38:59 87

原创 Hive分区表的创建使用

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。Hive 建分区表语句:create table dept_partition( deptno int, dname string, loc string ) partitioned by (month string) row for

2020-09-01 20:19:42 3131

原创 Python 直接赋值、浅拷贝和深度拷贝

Python 直接赋值、浅拷贝和深度拷贝直接赋值浅拷贝深拷贝直接赋值直接赋值:其实就是对象的引用(别名)。a=[1,2,3,4,{0,1,2},10]#直接赋值,a、b指向同一个地址b = a #b=[1, 2, 3, 4, {0, 1, 2}, 10]a.append(5) #a追加5,a指向的地址所存储的值追加5b #b引用同一地址的值 [1, 2, 3, 4, {0, 1, 2}, 10, 5]浅拷贝浅拷贝(copy):拷贝父对象,不会拷贝对象的内部的子对象。a=[1,2,

2020-08-24 20:20:51 92

原创 linux快速安装flume并测试

flume 安装包获取:链接:https://pan.baidu.com/s/1Pz633cmOdSvzkdo8E05_qQ 提取码:xh4t

2020-08-18 09:57:08 239

原创 linux中快速安装telent

telnet安装1.查看是否安装telnet-server(命令执行无结果输出表示telnet-server未安装,则执行步骤2;否则执行步骤3)rpm -qa telnet-server2.下载安装telnet-serveryum -y install telnet-server3.查看是否安装telnet(命令执行无结果输出表示telnet未安装,则执行步骤4,否则执行步骤5)rpm -qa telnet4.安装telnetyum -y install telnet安装完tel

2020-08-17 20:14:15 213

原创 Anaconda3 安装以及Jupyter和pyspark集成

Anaconda3(1) python自身缺少numpy、matplotlib、scipy、scikit-learn…等一系列包du,需要安装pip来导入zhi这些包才能进行相应运dao算Anaconda(开源的Python包管理器)是一个python发行版,包含了conda、Python等180多个科学包及其依赖项。包含了大量的包,使用anaconda无需再去额外安装所需包。(2) 内置不同IPython 是一个 python 的交互式 shell,比默认的python shell 好用得多,支持变

2020-08-12 19:35:35 681

原创 Hive 侧视图创建

HDFS文件路径: /users/userfriends/user_friends.csvcsv文件数据如下:创建外部表(ods)去除首行,字段间按照“,”分割。create external table if not exists dwd_user_friends (userid string,friends string)row format delimited fields terminated by ',' //字段按 ',' 分割location '/users/userfri

2020-08-11 20:03:11 227

原创 linux 查看文件夹/文件大小命令

Linux命令:查看文件夹和文件大小1.查看当前目录所有文件大小的命令 ls -lht 返回当前目录下所有文件大小的总和[root@hadoop1 opt]# ls -lhttotal 2.7G-rw-r--r--. 1 root root 1.2K Jul 16 10:34 shoppe.csv-rw-r--r--. 1 root root 17K Jul 16 10:33 sendaddr.csv-rw-r--r--. 1 root root 3.5K Jul 16 10:33

2020-08-10 20:14:33 826

原创 大数据 kafka安装使用

kafka 默认信息存储时间7天,自动删除为什么使用消息中间件(MQ)异步调用:同步变异步应用解耦:提供基于数据的接口层流量削峰:缓解瞬时高流量压力Broker:消息服务器,提供核心服务Producer:消息生产者Consumer:消息消费者Topic:主题,发布订阅模式下的消息统一汇集地Queue:队列,P2P模式下的消息队列kafka安装包获取链接:https://pan.baidu.com/s/1zK-x9OI_QAeMus5Z8WDlNg 提取码:9ihp安装1.上传安装

2020-08-10 19:45:26 157

原创 Java 代码实现自定义flume Interceptor

custom.txt文件如下,存放在虚拟机/opt/datas文件夹中1,张三,男,402,李三,女,43,张四,男,144,李三三,女,44任务需求:需要把性别一列“男”转换为“1”,“女”转换为“2”,其他值转换为“0”。创建maven项目,在pom.xml文件中导入flume依赖包<!-- https://mvnrepository.com/artifact/org.apache.flume/flume-ng-core --><dependency> &l

2020-08-06 19:09:49 346

原创 scala 柯里化(Currying)函数

首先看一个简单的案例://原函数 传入两个参数x,y 求和def add(x:Int,y:Int)=x*y+y//柯里化函数 每次传入一个参数,先传入x,再传入y 求和def add1(x:Int)(y:Int)=x*y+y//原函数调用add(10,1) //11//柯里化函数调用add1(10)(1) //11由此可见,柯里化函数就是把一次传入多个参数的函数拆分为每次都传入单个参数的函数,并且多次传入参。那为什么add(x,y)变成add1(x)(y)就实现了柯里化呢?

2020-08-04 20:12:06 220

原创 sqoop实现大数据集群和关系型数据库之间数据迁移

Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具。Sqoop导入导出是通过MapReduce来完成的。在 Sqoop 中,“导入”概念指:从关系型数据库(RDBMS)向大数据集群(HDFS, HIVE,HBASE)中传输数据,叫做:导入,即使用 import关键字。在 Sqoop 中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向关 系型数据库(RDBMS)中传输数据,叫做:导出,即使用 export 关键字。Sqoop数据迁移从RDB到HDFS的数据迁移从RDB到

2020-07-29 20:21:27 437

原创 Linux sqoop安装教程

Sqoop环境搭建前提,已经安装Jdk,mysql,Hadoop,Hive,Zookeeper,HBase。sqoop-1.4.6-cdh5.14.2.tar.gz下载链接:https://pan.baidu.com/s/12ycO9ekiFAZji7yL1Jou5A 提取码:laj8mysql 5.1.38驱动包下载链接:https://pan.baidu.com/s/1fSkQYaqUmBSBCVT1rWCNMw 提取码:cqlujava-json.jar 下载链接:https://pa

2020-07-23 19:41:22 1234

原创 scala 面向对象基本(类、抽象类、单例/伴生、特质、样例类)

Scala面向对象基本类(class)类定义类继承抽象类(abstract class)内部类单例对象(object)定义单例对象伴生(Companion)特质(trait)使用特质混入特质(mixin)动态混入特质样例类(case class)泛型类练习类(class)类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public,也支持private、protected类中无法定义静态成员变量和方法类无需明确定义构造方法,通过构造参数列表声明为类的一部

2020-07-15 19:31:27 331

原创 scala中常用Array函数

所有函数测试均s以cala交互式编程方式(wimdows cmd 下执行scala)完成。scala数组·存储的大小固元素索引·数组索引从0开始//数组创建方式一var a1:Array[String] = new Array[String](3)a1(0)="Jason"a1(1)="Marie"a1(2)="Jimmy"a1存储结果 Array(Jason, Marie, Jimmy)//数组创建方式二var a2=Array("Jason","Marie","Jimmy")a2

2020-07-10 15:27:18 417

原创 正则表达式

正则作用:对字符串1.分割2.匹配3.替换4.搜索常用正则表示字符含义\d一个数字【0-9】\D一个非数字\w一个字母【0-9】【a-z】【A-Z】\W一个非字母.任意一个字符表示正则出现次数修饰符?修饰前一个正则出现的次数为0-1次+修饰符前面的正则表达式出现1次或多次*修饰符 修饰符前面的正则表达式出现0次或多次[] : 字符选择器举例:[0-9] :在指定范围中任意取一个值[a

2020-07-08 17:25:36 160

原创 Linux 快速安装mysql5.7

安装mysql1.检查虚拟机中是否存在mariadbrpm -qa | grep mariadb2.删除mariadb文件rpm -e --nodeps mariadb-libs-5.5.60-1.el7_5.x86_643.安装wget下载器yum install -y wget4.下载mysqlwget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm5.安装mysqlrpm -ivh mysql-c

2020-07-08 14:07:38 205

原创 Hadoop HA集群配置及使用

在2.x版本中Hadoop HA一台配置为Active Namenode,对外提供服务若干台配置为:Standby Namenode,待机状态集群规划机器名hadoop2hadoop3hadoop4namenodenn1nn2resourcemanagerrm1rm2HDFSNameNode DataNode JournalnodeNameNode DataNode JournalnodeDataNode JournalnodeYARN

2020-07-07 21:45:56 1034

原创 Zookeeper 分布式环境搭建

Zoopkeeper数据模型结构与Linux文件系统很像,整体上可以看作一棵树,树的每个节点称作一个znode。每一个znode默认存储1MB数据,每个znode都可以通过路径唯一标识。选举机制当启动的机器数大于集群总机器数的一半,开始选举leader,myid最大的选为leader。此后,剩余的机器启动后,只能作为follower。当leader down后,从剩余的机器中依据myid最大的作为leader;如果down掉的机器又重新启动,只能作为follower。数据版本最新,myid越大

2020-07-07 01:01:10 506

原创 Hadoop 完全分布式安装配置

集群准备准备3台客户机(关闭防火墙、静态ip,主机映射、主机名称),主机名称分别hadoop2,hadoop3,hadoop4vi /etc/hosts-----------------------------------------------------192.168.191.101 hadoop1安装jdk,配置环境变量#解压tar zxf jdk-8u171-linux-x64.tar.gz -C /opt/install/#配置环境变量vi /etc/profile

2020-07-06 20:14:27 250

krb5_1.51.1 rpm安装包

内含krb5-devel-1.15.1-50.el7.x86_64.rpm、krb5-libs-1.15.1-50.el7.x86_64.rpm、krb5-pkinit-1.15.1-50.el7.x86_64.rpm、krb5-server-1.15.1-50.el7.x86_64.rpm、krb5-workstation-1.15.1-50.el7.x86_64.rpm安装包,可用于Centos7。内附READ.txt文件,里面含有可下载RPM包的网址。

2022-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除