百夜﹍悠ゼ-CSDN博客

原创 Flink CDC Oracle 用户权限不足 ORA-01031: insufficient privileges

Flink cdc 实时抽取Oracle数据表，提示：ORA-01031: insufficient privileges

2022-10-26 14:36:16 3456 3

原创字符集中文乱码转换为UTF8，如：å\u0085¬è¯\u0081ä¸\u009Aå\u008A¡ç±»å\u0088«æ\u009C\u0089è¯¯ï¼\u0081

字符集中文乱码转换为UTF8，如：å\u0085¬è¯\u0081ä¸\u009Aå\u008A¡ç±»å\u0088«æ\u009C\u0089è¯¯ï¼\u0081。

2022-09-15 19:28:58 34680

原创 oracle 查找、替换字符串中的换行符

oracle 中实现字符串中查找、替换换行符 chr(10)、chr(13)等。

2022-06-10 10:00:39 7395

原创 org.pentaho:pentaho-aggdesigner-algorithm:jar:5.1.5-jhyde Maven下载不下来

找了很多文章都提供以下两种方式1）设置maven镜像仓库2）pom文件增加不过我试了都没有解决问题。最终直接下载缺失的包，地址如下https://public.nexus.pentaho.org/#browse/search=keyword=pentaho-aggdesigner-algorithm将jar和pom放到maven对应路径下即可。pentaho-aggdesigner-algorithm-5.1.5-jhyde.jarpentaho-aggdesigner-algorithm-

2022-06-02 18:51:43 5268 12

原创 Apache Http Server安全漏洞解决

场景：公司使用的大数据集群云服务器，安全扫描出严重漏洞，扫描漏洞如下：安全漏洞扫描报告端口协议服务严重等级漏洞–ICMP–弱ICMP timestamp请求响应漏洞–UDP–弱允许Traceroute探测80TCPhttp严重严重严重严重严重弱OpenSSL 安全漏洞(CVE-2022-0778) Apache HTTP Server 环境问题漏洞(CVE-2022-22720) Apache HTTP Server 输入验证错误漏

2022-04-21 13:50:47 12495 2

原创基于CM管理的CDH6.3.2集群集成Atlas2.1.0

基于CM管理的CDH6.3.2集群集成Atlas2.1.0大数据平台进行数据治理需要，采用Apache Atlas进行数据治理。下载Atlas2.1.0版本源码包。下载https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz 到windows。前提CDH集群已经搭建完成，组件服务包含Hdfs、Hive、Hbase、Solr、Kafka、Sqoop、Zookeeper、Impala、Yarn、Sp

2022-03-25 11:18:42 3318 5

原创基于CM管理的CDH集群集成Phoenix

基于CM管理的CDH集群集成Phoenix背景介绍：原有的CDH集群，以Hive+Hbase+Impala进行数据处理查询，Hbase而言语法难懂，不同于寻常的SQL，Impala而言速度查询速度太慢且无法进行记录的修改。故而考虑用Phoenix来集成Hbase、Hive以解决上述问题。前提：已经基于CM安装搭建CDH集群，本文采用parcels包的方式集成Phoenix到CDH集群。下载Phoenix Parcel包和Jar包并上传到CM-Server节点本文采用的phoenix版本包如下：..

2022-03-24 11:29:03 3235

原创 windows Server 2012 安装导入opencv-python 提示DLL找不到

项目背景：win server 2012 R2 + python3.6+opencv4.4.0+ffmpeg 实现视频图像处理问题描述：import cv2 报错dll找不到1.pip命令安装opencv：pip --default-timeout=100 install opencv-python==4.4.0.46 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com2.通过pip list 查看模块列表发现 numpy和

2021-12-27 16:37:54 5818 4

原创基于CDH6.2.0 搭建大数据集群

Cloudera Manager集群搭建hostname按表格进行修改，/etc/hosts文件添加节点 Ip+hostnamehostnameiprolecdh-nn01172.16.0.188HadoopMaster，CM Server，Mysql，Hue，HS2cdh-nn02172.16.0.189Hadoop Master，CMAgent，HS2cdh-nn03172.16.0.190Hadoop Master，CMAgent，HS2,Impala

2021-12-09 11:56:50 2258

原创 org.apache.parquet.schema.InvalidSchemaException: A group type can not be empty. Parquet does not su

1.读取cvs文件数据写入parquet文件 val spark =SparkSession.builder().appName("test").master("local").getOrCreate() val file = "hdfs://clusters/test/demo.csv" val frame = spark.read.option("header","true").csv(file) val newfile = file.split("\\.")(0)+".parque

2021-07-21 17:58:01 1209

原创 Java 基于poi 读写excel文件（ *.xlsx）

Java 通过poi读取excel文件需要使用XSSFWorkbook对象，需要如下依赖包 <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.1.0</version> </dependency> <dependency&g

2021-06-08 18:25:12 779

原创 org.apache.hadoop.security.AccessControlException

通过spark程序HDFS进行文件写入操作时，程序报错org.apache.hadoop.security.AccessControlException: Permission denied: user=admin, access=WRITE, inode="/mydata":root:supergroup:drwxr-xr-x，根据提示可知是程序使用的是admin用户，它没有写权限。报错信息如下：Exception in thread "main" org.apache.hadoop.security

2021-06-03 11:28:51 1571

原创 Java BufferedReader和BufferedWriter 实现按行读写文本数据

背景：将指定的生产业务数据按行写入文本文件中，以便后续分析。功能实现：按行写入、读取批量数据。本文使用BufferedWriter和BufferedReader以字符流方式读写文本数据。按行写数据到文本BufferedWriterwrite()方法向缓冲区写入数据newLine()写入换行符flush()将缓冲区数据刷写到外部文件，并清空缓冲区。 /** * 向指定文件中写入数据 * @param outFileName 文件路径 * @param conte

2021-05-12 11:35:18 2830

原创 Nifi 快速安装及文件同步操作

Nifi简单来说是一个数据拉取、数据处理以及数据分发的系统。Nifi运行需要JVM，需要Java 8版本。下载地址：nifi.apache.org/download 本文安装nifi-1.8.0-bin.tar.gz使用手册：http://nifi.apache.org/docs.html安装1.下载安装包wget -b http://mirror.bit.edu.cn/apache/nifi/1.8.0/nifi-1.8.0-bin.tar.gz2.解压安装包tar -zxf nifi

2021-05-06 15:49:36 914

原创解决安装python模块库 Error:Read timed out

在使用python进行开发常常需要用到各式各样的模块库，往往pip install 模块库会给我们带来意想不到的惊喜！5分钟的下载时间长可以等待的？！结果出现Read time out! 连接超时！！如下图：百度了几篇文章，找到了一个比较有效的方法,就是在基础安装指令pip install model_name后拼接上-i http://pypi.douban.com/simple --trusted-host pypi.douban.com 使用镜像源。完整命令如下，替换model_name为目标模

2021-04-20 17:42:57 370

原创 windows10 安装python3

本人安装的是python3.6.4。python3.6.4下载链接：https://pan.baidu.com/s/1uQjMUQwsMWpjUN7bbWmX_Q 提取码：wshu安装1.双击软件包python-3.6.4-amd64.exe进行安装，“下一步”即可，选择自定义安装路径，我安装在D:\Python36。进入安装目录，可见一个python.exe文件，进入Scripts目录，可见pip.exe文件。2.添加环境变量。windows本地搜索“环境变量” ->“编辑系统环境变量”

2020-12-16 10:47:54 269

原创 Windos中安装labellmg教程

labelImg安装windows 10上安装，需要python3+Qt5组合。这里是引用安装Anaconda3.5.1.0 windows链接：https://pan.baidu.com/s/1Gdaaj8El759nA7np5L6LfQ提取码：vdka我下载的是64位的python3.6版本。然后双击安装，一般点选“for all person”。我安装目录为D:\Anaconda3510，安装成功后建议在环境变量path里面增加anaconda环境配置“D:\Anaconda3510”

2020-12-01 16:38:41 1258 2

原创 log4j 输出日志信息到文件中

Log4j由三个重要的组件构成：日志信息的优先级，日志信息的输出目的地，日志信息的输出格式。日志信息的优先级从高到低有ERROR、WARN、INFO、DEBUG，分别用来指定这条日志信息的重要程度；日志信息的输出目的地指定了日志将打印到控制台还是文件中；而输出格式则控制了日志信息的显示内容。log4j.properties 输出ERROR级别日志到控制台和文件中。log4j.rootLogger:指定日志级别和输出源，用逗号隔开。org.apache.log4j.ConsoleAppender：指定

2020-11-23 15:21:09 2002

原创 Linux中进程在后台执行

linux中某些服务启动后会占用当前的会话窗口，例如hive --service metastore命令，直接执行会把当前linux连接会话占用。直接启动服务进程hive --service metastore &通过jps命令，可以查看到一个新的RunJar进程这种情况下可以考虑让进程服务在后台启动执行，进程在后台执行命令 nohup+原命令+&nohup 的用途就是让提交的命令忽略 hangup 信号，标准输出和标准错误缺省会被重定向到 nohup.out 文件中。。一般我们

2020-11-23 14:38:32 264

原创 Exception in thread “main“ java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.elapsedMill

spark rdd操作报如下错误：Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.elapsedMillis()J这是由于依赖包版本不一致导致的。随后，我检查项目pom.xml文件并没有导入相关依赖包，后来检查项目的 External Libraries 发现了该包，且版本为16.0.1。解决方法，pom.xml中导入依赖<dependency>

2020-10-19 16:03:25 4908

原创快速安装mongodb

安装MongoDB1.配置yum源vi /etc/yum.repos.d/mongodb.repo-----------添加如下内容--------------------------[MongoDB]name=MongoDB Repositorybaseurl=http://repo.mongodb.org/yum/redhat/7Server/mongodb-org/4.0/x86_64/gpgcheck=0enabled=12.下载mongodb，遇到completed安装完成。

2020-10-14 15:38:59 126

原创 Hive分区表的创建使用

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。Hive 建分区表语句：create table dept_partition( deptno int, dname string, loc string ) partitioned by (month string) row for

2020-09-01 20:19:42 3336

原创 Python 直接赋值、浅拷贝和深度拷贝

Python 直接赋值、浅拷贝和深度拷贝直接赋值浅拷贝深拷贝直接赋值直接赋值：其实就是对象的引用（别名）。a=[1,2,3,4,{0,1,2},10]#直接赋值，a、b指向同一个地址b = a #b=[1, 2, 3, 4, {0, 1, 2}, 10]a.append(5) #a追加5，a指向的地址所存储的值追加5b #b引用同一地址的值 [1, 2, 3, 4, {0, 1, 2}, 10, 5]浅拷贝浅拷贝(copy)：拷贝父对象，不会拷贝对象的内部的子对象。a=[1,2,

2020-08-24 20:20:51 140

原创 linux快速安装flume并测试

flume 安装包获取：链接：https://pan.baidu.com/s/1Pz633cmOdSvzkdo8E05_qQ 提取码：xh4t

2020-08-18 09:57:08 300

原创 linux中快速安装telent

telnet安装1.查看是否安装telnet-server（命令执行无结果输出表示telnet-server未安装，则执行步骤2；否则执行步骤3）rpm -qa telnet-server2.下载安装telnet-serveryum -y install telnet-server3.查看是否安装telnet（命令执行无结果输出表示telnet未安装，则执行步骤4，否则执行步骤5）rpm -qa telnet4.安装telnetyum -y install telnet安装完tel

2020-08-17 20:14:15 319

原创 Anaconda3 安装以及Jupyter和pyspark集成

Anaconda3(1) python自身缺少numpy、matplotlib、scipy、scikit-learn…等一系列包du，需要安装pip来导入zhi这些包才能进行相应运dao算Anaconda(开源的Python包管理器)是一个python发行版，包含了conda、Python等180多个科学包及其依赖项。包含了大量的包，使用anaconda无需再去额外安装所需包。(2) 内置不同IPython 是一个 python 的交互式 shell，比默认的python shell 好用得多，支持变

2020-08-12 19:35:35 772

原创 Hive 侧视图创建

HDFS文件路径: /users/userfriends/user_friends.csvcsv文件数据如下：创建外部表（ods）去除首行，字段间按照“，”分割。create external table if not exists dwd_user_friends (userid string,friends string)row format delimited fields terminated by ',' //字段按 ',' 分割location '/users/userfri

2020-08-11 20:03:11 285

原创 linux 查看文件夹/文件大小命令

Linux命令：查看文件夹和文件大小1.查看当前目录所有文件大小的命令 ls -lht 返回当前目录下所有文件大小的总和[root@hadoop1 opt]# ls -lhttotal 2.7G-rw-r--r--. 1 root root 1.2K Jul 16 10:34 shoppe.csv-rw-r--r--. 1 root root 17K Jul 16 10:33 sendaddr.csv-rw-r--r--. 1 root root 3.5K Jul 16 10:33

2020-08-10 20:14:33 937

原创大数据 kafka安装使用

kafka 默认信息存储时间7天，自动删除为什么使用消息中间件（MQ）异步调用：同步变异步应用解耦：提供基于数据的接口层流量削峰：缓解瞬时高流量压力Broker：消息服务器，提供核心服务Producer：消息生产者Consumer：消息消费者Topic：主题，发布订阅模式下的消息统一汇集地Queue：队列，P2P模式下的消息队列kafka安装包获取链接：https://pan.baidu.com/s/1zK-x9OI_QAeMus5Z8WDlNg 提取码：9ihp安装1.上传安装

2020-08-10 19:45:26 197

原创 Java 代码实现自定义flume Interceptor

custom.txt文件如下，存放在虚拟机/opt/datas文件夹中1,张三,男,402,李三,女,43,张四,男,144,李三三,女,44任务需求：需要把性别一列“男”转换为“1”，“女”转换为“2”，其他值转换为“0”。创建maven项目，在pom.xml文件中导入flume依赖包<dependency> &l

2020-08-06 19:09:49 402

原创 scala 柯里化（Currying）函数

首先看一个简单的案例：//原函数传入两个参数x,y 求和def add(x:Int,y:Int)=x*y+y//柯里化函数每次传入一个参数,先传入x,再传入y 求和def add1(x:Int)(y:Int)=x*y+y//原函数调用add(10,1) //11//柯里化函数调用add1(10)(1) //11由此可见，柯里化函数就是把一次传入多个参数的函数拆分为每次都传入单个参数的函数，并且多次传入参。那为什么add(x,y)变成add1(x)(y)就实现了柯里化呢？

2020-08-04 20:12:06 279

原创 sqoop实现大数据集群和关系型数据库之间数据迁移

Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具。Sqoop导入导出是通过MapReduce来完成的。在 Sqoop 中，“导入”概念指：从关系型数据库（RDBMS）向大数据集群（HDFS， HIVE，HBASE）中传输数据，叫做：导入，即使用 import关键字。在 Sqoop 中，“导出”概念指：从大数据集群（HDFS，HIVE，HBASE）向关系型数据库（RDBMS）中传输数据，叫做：导出，即使用 export 关键字。Sqoop数据迁移从RDB到HDFS的数据迁移从RDB到

2020-07-29 20:21:27 524

krb5_1.51.1 rpm安装包

空空如也