![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop组件使用记录
文章平均质量分 78
学习Hadoop部分组件的使用记录
lyanjun
这个作者很懒,什么都没留下…
展开
-
Flink1.14学习测试:将数据写入到Hive&Hdfs(二)
flink kafka sink to hive原创 2022-07-16 11:06:01 · 3535 阅读 · 1 评论 -
Flink1.14学习测试:将数据写入到Hive&Hdfs(一)
flink sink 数据到 hive原创 2022-07-15 22:37:18 · 1721 阅读 · 4 评论 -
Flink1.14学习测试:接收kafka消息将结构化数据通过JDBC保存到数据库中
Flink1.14 kafka 结构化数据 通过jdbc连接 保存到目标数据表原创 2022-07-15 11:19:11 · 1870 阅读 · 0 评论 -
Parquet文件测试(二)——Java方式对Parquet文件进行文件生成和解析
Java方式对Parquet文件进行文件生成和解析 此处属于对Parquet文件测试(一)——使用Java方式生成Parqeut格式文件并直接入库的Hive中的补充,因为之前只是写了生成,并没有写如何解析,其次就是弄懂结构定义的问题。最终目的是生成正确的Parquet文件,使用Spark可以正常的读取文件内容(可参考Spark练习测试(二)——定义Parquet文件的字段结构)。测试准备 首先定义一个结构,到时候生成的Parquet文件会储存如下结构的内容:import lombok.Data;原创 2021-05-25 14:56:38 · 3607 阅读 · 2 评论 -
Spark练习测试(二)——定义Parquet文件的字段结构
定义生成Parquet文件的字段结构 相关依赖在《Spark练习测试——读写Parquet格式文件(一)》中的开头处。定义生成数据的结构 定义一个表结构,在该类中有个conversionToRow()方法,这个方法将会在定义Parquet文件字段的时候用到。import lombok.Data;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;/** * 测试结构 * 属性为表字段 */@原创 2021-05-22 17:36:37 · 494 阅读 · 3 评论 -
如何获取Hive库表字段分区信息
如何获取Hive库表字段分区信息 使用Hive关联的Mysql读取Hive的库表字段分区信息,也可以使用Hive的sys数据库查询相关的信息,但是会比较慢。所以直接使用Mysql去读,Hive在Mysql保存的信息如下图所示:获取Hive的所有数据库信息  如果注释字段中文乱码,则需要修改字符集(正常情况都需要修改)。SELECT `NAME` NAME, ANY_VALUE ( `DESC` ) COMMENT, ANY_VALUE ( `DB_LOCATION_URI原创 2020-12-26 15:02:04 · 5230 阅读 · 1 评论 -
Spark练习测试(一)——读写Parquet格式文件
Spark连接Hdfs读写Parquet格式文件原创 2020-12-26 12:07:43 · 863 阅读 · 1 评论 -
Parquet文件测试(一)——使用Java方式生成Parqeut格式文件并直接入库的Hive中
验证Parquet格式的操作验证目标Parquet格式是否可以直接将上传到Hdfs中的文件,加载到目标数据表中(Hive)。将无结构化数据转成Parquet格式文件,并上传到Hdfs中。使用datax工具同步数据(将指定Parquet文件同步到Hive中)。创建测试表 表信息如下(注意stored as parquet默认为orcfile): 建表语句如下:create table parquet_test( name string, age int)comment 'p原创 2020-12-19 16:23:30 · 2457 阅读 · 3 评论