STAR･Wang-CSDN博客

原创报错：Codec [xxx] is not available. Available codecs are brotli,uncompressed,lz4,gzip,lzo,snappy,none

可能是建表语句中TBLPROPERTIES (‘PARQUET.compression’=‘xxx’)建议填snappy gzip uncompressed。写入到hive中报错，编码器不可用。

2022-08-05 10:43:47 689

原创写hbase异常native snappy library not available: this version of lib hadoop was built without snappy

操作snappy压缩的表时抛出:原因: 是由于没有在java.library.path上加上snappy库解决方法:修改spark-defauilt.conf配置文件加上: spark.executor.extraLibraryPath /ldata/Install/hadoop/lib/native或者spark.executor.extraJavaOptions -Djava.library.path=/data/Install/hadoop/lib/native如果是spark任务，则在spa

2022-06-30 15:44:53 1706

翻译 oracle使用多列分区键

对于范围分区表和散列分区表，最多可以指定16个分区键列。当分区键由几列组成，并且后续列定义的粒度比前几列更高时，使用多列分区。最常见的场景是分解的DATE或TIMESTAMP键，由年、月和日的独立列组成。在计算多列分区键时，只有当第一个值不能唯一标识单个目标分区时，数据库才使用第二个值，只有当第一个值和第二个值不能确定正确的分区时，数据库才使用第三个值，依此类推。只有当分区界限与某个值完全匹配，并且为下一个分区定义了相同的界限时，该值才能确定正确的分区。仅当多列键的所有前(n-1)个值与分区的(n-1)

2022-04-20 14:53:53 1360

原创 spark dataframe正则表达式

关于如何在spark中对Dataframe使用正则表达式进行筛选，最近在使用过程中进行了小研究。1、遇到的问题一准备一个DataFrame，首先的思路是使用withColumn对dataFrame中的目标列进行修改：//dataframe 结构如下+-----+-------+----+|index| name|type|+-----+-------+----+| 1|Michael| A|| 2| Andy| B|| 3| Justin| C|+-

2021-12-29 17:25:19 1926

原创 Scala处理复杂json

Scala 处理复杂 json示例 JSON 如下{ "nodeName": "xxx", "source": "join", "left_child": { "nodeName": "yyy", "join": null, "source": "hive", "parameter": { "address": "", "port": 9083,

2021-12-21 20:06:10 484

原创 JavaAPI修改Kafka配置 server.properties

<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.4.0</version> <exclusions> <exclusion> <groupId>org.slf4...

2021-11-12 14:31:11 686

原创 JavaAPI创建kafka topic 删除及修改分区

记录最近遇到一个需求中踩到的不少坑，现在整理一下做个汇总使用JavaAPI写一个Kafka topic创建及修改目前发现有两种方法：一种通过注册zookeeper来管理kafka，这是一种很老的方法，这里不做过多赘述另一种是adminclient说明：在Kafka0.11.0.0版本之后，多了一个AdminClient，这个是在kafka-client包下的，这是一个抽象类，具体的实现是org.apache.kafka.clients.admin.KafkaAdminClient。这个类可以实现相

2021-11-12 11:30:51 2849

原创 SparkSQL数据为空而引起的show()报错

为了解决数据为空而引起的show()报错，在过滤时使用 !x.isNullAt(1) 判断是否为空，为空就丢弃//过滤 .getDouble(1) 1指第几个column，从0开始 df3.filter(x => !x.isNullAt(1) && x.getDouble(1) < 1995).show(10)...

2021-10-15 11:07:46 627

原创 Scala部分函数

部分函数外部在传入的参数，按照输入顺序接收。1、样例//部分函数 def showMsg(title: String, content: String, height: Double): Unit = { println(title + " " + content + " " + height) } showMsg("警告", "水位上涨", 123)运行结果--------------------------------------------------

2021-10-14 11:15:41 149

原创整理常用的Scala数组算子

def main(args: Array[String]): Unit = { val arr1 = Array(1, 2, 3, 4) val first = arr1(0) val newArr = arr1.map(x => x * 2) newArr.mkString(",") //拼接字符串 newArr.mkString("(", "*", ")") //合并集合 val a = Array(1, 2) val b = A

2021-10-14 10:38:15 266

原创 null/hadoopbinary/wintils.exe 报错

遇见 null/hadoopbinary/wintils.exe 报错是因为windows缺少hadoopCommon包，需要下载并解压hadoop-common-2.2.0-bin-master包并在环境变量中设置环境变量，1、在用户变量中新建HADOOP_HOME变量名，变量值为common包的位置2、在系统变量Path中，添加%HADOOP_HOME%\bin;点击确定保存，并重启电脑即可...

2021-09-17 15:50:19 183

原创 Kafka Stream 实时流例程

Kafka Stream提供了对存储于Kafka内的数据进行流式处理和分析的功能。使用kafkaStream将kafka输入一个topic的数据，以实时流的方式写入到另一个topic中间可以对数据进行“加工”，对截取到的数据累加后在放到另一个topic中首先新建两个kafka topic 一个用来作为第一接受数据topic，另一个用来接收转发数据topicmystreamin为接收数据topickafka-topics.sh --zookeeper 192.168.150.100:218.

2021-05-27 15:06:12 283

原创一图搞定MapReduce流程

2021-05-25 19:07:09 241

原创使用自定义程序过滤flume数据

编写java自定义过滤程序新建一个maven项目在pom.xml中添加<dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.6.0</version> </dependency>新建java程序package flu

2021-05-25 18:58:12 421

原创 flume 实时监控读写操作例程

Flume最主要的作用就是，实时监控读取服务器本地磁盘的数据，将数据写入到HDFS、kafka。输入vi flume-env.sh进入修改配置java路径export JAVA_HOME=/root/software/jdk1.8.0_221配置flume的运行内存(建议10G)export JAVA_OPTS="-Xms10240m -Xmx10240m -Dcom.sun.management.jmxremote"配小了在运行大量运算时容易报channel不足错误在conf文件夹下.

2021-05-25 17:17:23 371

原创 kafka快速安装配置

到安装包所在的目录，输入tar -zxvf 包名进行解压输入mv 包名 kafka对解压包进行改名配置环境变量，输入vi /etc/profile并在最后添加路径export KAFKA_HOME=/root/software/kafkaexport PATH=$PATH:$KAFKA_HOME/bin在文件夹根目录创建一个文件夹，用来放日志和数据文件mkdir /root/software/kafka/logs打开kafka目录进入config输入vi server.properties

2021-05-20 17:42:23 175

原创 Hadoop高可用集群快速搭建

HDFS——HA集群配置在之前的教程中安装好hadoop、zookeeper1、在core-site.xml中添加以下的配置<configuration><property> <name>fs.defaultFS</name> <value>hdfs://集群名</value></property><!-- 指

2021-05-18 17:10:00 151

原创 Spark自定义函数UDF UDAF UDTF编写

一、Spark自定义函数UDFimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.{SparkConf, SparkContext}object UDFDemo {//创建样例类 case class Hobbies(name: String, hobbies: String) def main(args: Array[String]): Unit = {//建立连接 val conf =

2021-05-12 19:19:26 286

原创如何使用Spark连接MySQL数据库

import org.apache.spark.sql.SparkSessionobject SparkToMysql { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("toSQL") .master("local[*]") .config("hive.metastore.uris", "thrift://192.168.150.100:9083

2021-05-12 18:56:36 2659

原创如何使用Spark连接Hive

使用Spark连接Hive获取数据一、在连接前，先保证服务器端的运行环境正常1、Linux窗口输入start-all.sh启动hadoop环境2、再输入 hive --service metastore & 启动hive服务3、在Linux窗口输入jps检查服务是否都启动 RunJar代表hive服务已启动二、使用以下代码连接hiveimport org.apache.spark.sql.SparkSessionobject sparkToHive { de

2021-05-12 17:30:12 2332

原创 spark连接HDFS报错：8020 failed on connection exception: java.net.ConnectException: 拒绝连接解决方法

一、接口错误spark连接HDFS时直接报错，可能是hadoop中core-site.xml配置的集群端口时9000，而spark写的是8020，改为9000即可。二、hdfs文件丢失当初次连接成功，并且获取表结构也成功，但是一获取表数据时就报错拒绝连接，这时要到MySQL中查看该数据库或者该表的文件是否真的存在于指定位置，当文件丢失时也会报错。报错内容会显示文件端口丢失。...

2021-05-11 18:55:17 4739

原创虚拟机报错：Job for network.service failed because the control process exited with error code

在CentOS系统上，目前有NetworkManager和network两种网络管理工具。如果两种都配置会引起冲突。由于一般我们都是使用 network 配置静态ip，可能是关机（某种缘故）导致NetWorkManager自动配置，发生了冲突，所以把它禁用掉就好了。临时关闭systemctl stop NetworkManager永久关闭systemctl disable NetworkManager重启systemctl restart network...

2021-04-22 10:10:39 1706 1

转载 JVM虚拟机原理

点这里跳转

2021-04-21 10:45:51 96

原创 hive语句练习—用户订单分布

用户订单分布按照用户id进行分组，统计订单时间以及地域的分布情况订单指标:第一次下单时间，最近一次下单时间，首单距今时间，尾单距今时间，近30天订单数量（不含退拒近30天订单金额（不含退拒)近60天订单数量（不含退拒)近60天订单金额（不含退拒)近90天订单数量（不含退拒)近90天订单金额(不含退拒)近30天订单数量（含退拒)近30天订单金额(含退拒)近60天购买次数(含退拒)近60天购买金额(含退拒)近90天购买次数（含退拒)近90天购买金额(含退拒)近90天的客单价

2021-04-19 23:53:51 667

原创字符串的长度限制

问：字符串有长度限制吗？是多少？答：首先字符串的内容是由一个字符数组 char[] 来存储的，由于数组的长度及索引是整数，且String类中返回字符串长度的方法length() 的返回值也是int ，所以通过查看java源码中的类Integer我们可以看到Integer的最大范围是2^31 -1,由于数组是从0开始的，所以数组的最大长度可以使【0~2^31】通过计算是大概4GB。但是通过翻阅java虚拟机手册对class文件格式的定义以及常量池中对String类型的结构体定义我们可以知道对于索引定义了u

2021-04-09 12:10:20 2887

转载数据库横向扩展和纵向扩展

传统master—slaves模式中master性能会成为瓶颈，使用将数据库的“分片”概念来解决水平拆分水平的拆分的方案，即不修改数据库表结构，通过对表中数据的拆分而达到分片的目的：1）使用用户id做hash，分解数据库，在访问数据库的使用用户id做路由。2）将产品订单表按照已下单和未下单区分成两个表。一般水平拆分在查询数据库的时候可能会用到union操作。垂直拆分即将表和表分离，或者修改表结构，按照访问的差异将某些列拆分出去。1）将用户信息表放到一个数据库server，将产品订单表放

2021-04-09 10:34:46 3459

原创 UDF自定义函数idea配置

创建一个新项目，选择maven，勾选上面的create from archetype选择底下的org.apache.maven.archetypes:maven-archetype-quickstart并点击Next设置groupId和ArtifactId第一行按照你的IDEA安装目录选择maven，第二行按照apache安装目录选择maven，选择之前要勾选右侧的override输入Project name 点击Finish，项目创建完成接下来进行配置，在pom.xml中修改以下内容

2021-04-06 15:25:50 470

原创 hive快速安装

使用ssh将安装包放进/root/software目录输入cd software进入压缩包所在的目录输入tar -zxvf 包名解压压缩包输入mv 原安装文件夹名 hive改名（好记）输入cd /hive/conf准备修改配置输入vi hive-site.xml创建配置文件按a进入编辑模式<configuration> <property> <name>hive.metastore.warehouse.dir&

2021-04-01 19:21:49 167

转载 OVER(PARTITION BY... ORDER BY...)的使用说明和意义

OVER(PARTITION BY... ORDER BY...)的使用说明和意义这个函数长这个样子：OVER(PARTITION BY... ORDER BY...)顾名思义，PARTITION 中文是分割的意思，ORDER 是排序的意思，所以翻译一下就是先把一组数据按照制定的字段进行分割成各种组，然后组内按照某个字段排序。以实际案例来说明这个函数的使用，首先，我们先看一组普通排...

2021-04-01 16:11:44 2615

原创 hbase快速安装

hbase安装1、打开hbase/conf/ ，修改Hbase-env.sh1. export JAVA_HOME={jdk路径}2. export HBASE_MANAGES_ZK=false //使用外部zookeeper2、修改hbase-site.sh<property> <name>>hbase.rootdir</name> <value>hdfs://192.168.175.100:9000/hbase</val

2021-03-30 11:59:04 148

原创使用java代码连接HDFS

前提是输入localhost:50070可以正常进入网页 Configuration conf=new Configuration(); try { FileSystem fs= FileSystem.get(new URI("hdfs://192.168.175.100:9000"),conf,"root");//创建文件夹 fs.mkdirs(new Path("/testHDFS/java/hello"));//上传文件 .

2021-03-29 08:23:48 829

转载范式(数据库的设计范式)

范式:符合某一级别的关系模式的集合,构造数据库必须遵循一定的规则.在关系数据库中,这种规则就是范式.关系数据库必须满足一定的要求,即满足不同的范式. 目前关系数据库有六种范式:第一范式(1NF) 第二范式(2NF) 第三范式(3NF) Boyce -Codd范式(BCNF) 第四范式(4NF) 第五范式(5NF) . 满足最低要求的范式是第一范式（1NF）。在第一范式的基础上进一步满足更多要求的称为第二范式（2NF），其余范式以次类推。一般说来，数据库只需满足第三范式（3NF）就行了。第一范式(1NF)

2021-03-26 08:46:33 188

空空如也

空空如也