Han_Lin_-CSDN博客

原创 HiDataPlus 3.3.2-005 搭建（个人的一点心得体会 x86 平台）

HiDataPlus 3.3.2-005 安装

2024-01-11 20:59:50 2778 7

原创 Idea 中出现：运行 Test 时出错。命令行过长。通过 JAR 清单或通过类路径文件缩短命令行，然后重新运行。

Idea 中出现：运行 Test 时出错。命令行过长。通过 JAR 清单或通过类路径文件缩短命令行，然后重新运行。在项目的 .idea 目录下的 workspace.xml 中的 <component name="PropertiesComponent"> <property name="RunOnceActivity.OpenProjectViewOnStart" value="true" /> <property name="RunOnceActiv

2021-09-04 10:57:49 21717 13

原创 Java gateway process exited before sending its port number（已解决）

【代码】Java gateway process exited before sending its port number（已解决）

2024-04-15 11:49:14 635

原创代码编写过程中遇到的问题整理

【代码】代码编写过程中遇到的问题整理。

2024-03-06 08:43:50 282 1

原创 Sqoop导入到Hive，Hive使用 HA

Sqoop 写入数据到启用 HA模式的Hive中

2023-11-02 14:18:30 774

原创 java.lang.IllegalArgumentException: java.net.UnknownHostException:XXX 已解决

HDFS和Hive安装出现 unknownHostException

2023-07-18 14:03:47 1107

原创 pySpark ModuleNotFoundError: No module named ‘XXX‘

pySpark ModuleNotFoundError: No module named 'XXX'

2022-12-20 10:11:17 1565 1

原创 The root scratch dir: /tmp/hive on HDFS should be writable.（已解决）

The root scratch dir: /tmp/hive on HDFS should be writable.

2022-12-15 08:48:56 602

原创 pyspark 报错 - No port number in pyspark.daemon‘s stdout

No port number in pyspark.daemon's stdout - 已解决

2022-09-08 16:03:12 1536 2

原创 Process exited with an error: 1(Exit value: 1)

错误解决，本文仅提供一个解决思路，具体需要自行解决

2022-06-02 16:15:26 4452

原创 es7.6.2 Validation Failed: 1: type is missing；

Spark 使用 rest 风格访问 es 报错：类型没有找到：Validation Failed: 1: type is missing;

2022-05-24 08:35:34 2183

原创 Kettle 错误整理

Kettle 错误整理错误整理Could not load SWT library. Reasons错误内容解决方案No more handles [gtk_init_check()错误原因错误内容解决方案：参考-1：https://blog.csdn.net/m0_37886429/article/details/83824321参考-2：https://blog.csdn.net/weixin_45115705/article/details/100553983错误整理Could not loa

2022-05-10 09:36:04 1236

原创 pom.xml - 打包能够添加外部依赖

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0..

2021-06-01 22:50:45 408

原创错误: 无法初始化主类

错误描述：错误: 无法初始化主类 com.haier.flink.main.PreFilteringMain原因: java.lang.NoClassDefFoundError: org/apache/flink/streaming/api/functions/source/SourceFunction错误解决方案：<dependency> <group...

2019-12-10 17:30:10 7984 6

原创 Centos7安装Docker

均使用 root 用户，按照官网推荐的方式进行安装：首先卸载 Centos 7 上的旧版本：yum remove docker docker-client docker-client-latest docker-common docker-latest docker-latest-logrotate docker-logrotate docker-engine更新 yum 源：(不...

2019-09-05 22:49:29 186

原创 Flink 1.9.0 Error: A JNI error has occurred, please check your installation and try again

仅供和我一样的小白阅读，大牛请略过！今天趟 Flink 19.0 遇到了一个官网的坑：官网可能默认每一位开发者都非常熟悉 Maven 但是今天我这个小白实实在在的躺了次坑：java.lang.NoClassDefFoundError: org/apache/flink/table/descriptors/ConnectorDescriptor at java.lang.Class.ge...

2019-08-30 16:10:16 2317 3

转载 json 转 map，循环得到 key，value

2019-08-22 17:28:18 1975

原创 Java 从后向前进行字符串截取！

实现思路：先将字符串倒转，然后对字符串进行截取。字符串反转的方法： /** * @描述 TODO : 将指定的字符串进行倒转 * @参数 [s] 要倒转的字符串 * @返回值 java.lang.String 倒转后的字符串 * @创建人韩林 * @创建时间 2019-06-14 17:11 * @修改人和其它信...

2019-06-14 17:35:29 17436 4

翻译 MyBatis在XML中同一个Bean，一个字段对应一个List(一对多)，写入Oracle数据库！mybatis foreach 嵌套批量 insert map list 数据

Bean :public class XXXBean { private String id; private List<Bean> ListName;Getter and Setter 。。。。。。}Service :public interface XXXXService {int name(XXXXXBean xxxxxBea...

2019-06-12 14:43:11 804

原创 Spark2.3.2 SparkSession 将 String 类型的 Json 转换为 DataFrame

import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{SQLContext, SparkSession}object DataFrameCreate { def main(args: Array[String]) { val jsonString = "{\"id\":1,...

2019-04-06 10:05:07 1128

原创 {"error":{"root_cause":[{"type":"strict_dynamic_mapping_exception","reason":"mapping set to strict,

报错信息：{"error":{"root_cause":[{"type":"strict_dynamic_mapping_exception","reason":"mapping set to strict, dynamic introduction of [created_by] within [layout_workorder] is not allowed"}],"type":"str...

2019-03-26 21:39:25 4831

原创 SparkStreaming 根据指定字段进行去重，并保留时间为最新的那条记录(消费Kafka版本为 0.10)

// 对数据进行过滤，取时间为最新的那条记录 val inputFilterIterable: RDD[(String, String)] = inputFeedRDD.map(inputRDD => { val a: ConsumerRecord[String, String] = inputRDD val in...

2019-03-20 23:15:55 2191

原创 Scala Java 混合开发的项目如何通过 Maven 进行打包(配置文件也都添加进去)

项目目录结构：pom.xml 中的打包代码：

2019-03-16 10:15:53 881 1

原创 DataFrame转自定义JavaBean

本人在项目开发的阶段遇到了一个业务场景：需要将 DataFrame 的数据转成一个自定义的 JavaBean 对象，然后传给 Java 应用层。执行的主函数代码：package com.hanlian.spark.sqlimport org.apache.spark.sql.SparkSessionobject DataFrameToJavaBean { def main(...

2019-03-15 22:00:32 890

原创 DataFrame返回一个空白表如何进行判断没有任何数据

// 直接判断DataFrame转换成的RDDval csr_bool_customerid = customerid.rdd.isEmpty()

2019-02-28 22:21:30 2094

原创 Streaming 消费 Kafka 中的 Json 数据并对单个 Batch 进行数据指定字段去重

inputKafkaDStream .foreachRDD(input => { if (!input.isEmpty()) { input.map(a => { a.split("\n") }) val pairRDDDate = input ....

2019-02-23 21:57:18 616

原创如何对混合开发的项目使用 Maven 进行相关依赖包打包

在项目的 pom 中的 <build></build> 之间添加一下内容即可实现将项目需要的包全部打包。<plugins> &...

2019-02-19 21:11:00 261

原创 SparkStreaming写Hive一个小Demo案例（数据源为 Socket）

import org.apache.spark.SparkContextimport org.apache.spark.sql.{SaveMode, SparkSession}import org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingConte...

2019-02-18 18:05:45 1008

原创 Spark 中容错( checkpoint )和持久化( cache )的异同：

checkpornt 是一个job来完成的，是执行完一个job之后，新建一个新的 job 来完成的，并不像 cache ，是 job 执行过程中进行。 checkpornt 是将数据的血统(DAG)截断，只保存了想要保存的 RDD 在HDFS 中，而 cache 的是计算血统的数据在内存中。缓存的清除方式也不一样，checkpornt 到HDFS中的RDD需要手动清除，如果不手动清除，会...

2019-02-17 11:49:03 482

原创 Spark无法使用反射的方式创建DataSet的解决方式

无法使用反射的方式创建 DataSet 主要是 Spark 中的 implicits 隐式转换包没有导入。当你创建的是 HiveContext 的时候就需要导入 HiveContext 的比如：val sc = new SparkContext(conf)val hiveContext = new HiveContext(sc)那么你就需要导入：import hiveCo...

2019-02-17 10:01:10 369

原创简述Spark Core SQL Streaming 的区别(个人理解只为小白解惑，大神勿喷！)

Spark Core ： Spark的基础，底层的最小数据单位是：RDD ; 主要是处理一些离线(可以通过结合Spark Streaming来处理实时的数据流)、非格式化数据。Spark SQL： Spark SQL 底层的数据处理单位是：DataFrame(新版本为DataSet<Row>) ; 主要是通过执行标准 SQL 来处理一些离线(可以通过结合Spar...

2019-01-27 21:09:07 1082

转载 Spark SQL 和传统 SQL 的区别

Spark SQL 在 Spark1.x 中和传统 SQL 不完全一致。但是在 Spark2.x 版本中遵循的美国的ANSI的SQL2003完全标准sql 。 oracle和mysql都有自己的语法规则，平时所使用的 SQL 语句都不是标准 SQL 。平时用的 mysql 和 oracle 以及 hive，都是部分遵...

2019-01-18 15:56:04 7727

原创 PreparedStatement

/** * 定义一个数据库连接对象，这里的引用必须是 java.sql 包中的。 * 因为只有这个包中才代表了 Java 提供的 JDBC 接口，这只是一套规范，具体实现则由数据库驱动来提供。 */Connection conn = null;/** * 如果使用Statement，那么就必须在SQL语句中，实际地去嵌入值，比如之前的insert语句中values必须使用硬编码 ...

2018-10-14 12:34:55 926

原创 bin/hive java.sql.SQLException: Access denied for user 'root'@'localhost' (using password: YE

2018-07-25 10:17:59,138 ERROR [main]: Datastore.Schema (Log4JLogger.java:error(125)) - Failed initialising database.Unable to open a test connection to the given database. JDBC url = jdbc:mysql://lin...

2018-07-25 10:56:19 1996

原创 Spark内核架构分析图解 - 整体内核架构简析图解

2018-06-07 10:35:15 525

原创 IDEA中如何在已创建好的java项目中编写scala代码，每一个步骤图文详解！

首先将scala的代码开发目录创建出来：然后为scala添加相关的SDK包即可：先将之前的scala包删除：重新添加scala SDK：如果本机不存在相关的Scala SDK，那么就选择：DownLoad… 如果需要使用本机的相关scala SDK 那么就选择： Browse… 之后选择 OK 即可。这样在刚才创建的scala 的Source目...

2018-05-26 16:53:59 4195 3

原创 failed to send message after 3 tries_非主流问题出现方式_topic未创建

failed to send message after 3 tries这个问题我遇到的原因是在Kafka发送数据的时候没有创建Topic，这样它的数据就不知道发送给谁了，这样就会出现这个问题。解决方案：将发送的数据对应的Topic使用Kafka的命令行模式创建出来就可以解决这个问题了！...

2018-05-04 14:31:07 652

原创 spark程序中关闭mysql自动提交的算子

Connection.setAutoCommit(false)这个是用于关闭mysql的自动提交设置的，一般会应用于大数据量的向MySQL中插入数据，这样先关闭自动提交然后将数据全部写入数据库后再统一提交全部数据。这样能够提高执行的效率。Connection.commit() 这个算子就是用来提交你写入数据库中的数据的算子。...

2018-04-26 16:44:46 339 1

原创如何将 DataFrame 中查询出来的对应字段的值获取出来并转换成 String

/* 需求：在MySQL中有一张表：id，sqltext，state 主要是本表中存在一个sql语句，现在需要SparkSQL去执行本SQL*/// 构建 SparkConfval conf = new SparkConf.setAppName("XXX")// 构建 SparkContextval sc = new SparkContext(conf)// 构建 H...

2018-04-18 16:54:22 8289

Scala自学笔记

自己整理的Scala语言的笔记，可能会存在失误等情况，请各位能够批评指正！我会及时修改！谢谢！

2018-03-04

Hive学习笔记（更新版）

包括了Hive简介、安装搭建、常用操作、函数整理、优化整理。比较适合新手入门！个人整理，有问题请留言或发送邮件至name_hanlin@163.com

2018-05-31

Spark学习笔记

本人学习Spark过程中记录的笔记，从基础到优化基本上都包括了。虽然受限于本人技术，本笔记还是有些简单！但是也是比较全面的！

2018-06-03

大数据hadoop学习笔记

这是自己学习大数据时整理的笔记，希望能够不使用资源分，免费分享！

2018-01-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人