Spark：读取文本文件存为hive表最佳实践

最新推荐文章于 2022-12-09 12:55:40 发布

weixin_33893473

最新推荐文章于 2022-12-09 12:55:40 发布

阅读量1.2k

点赞数

文章标签：大数据 scala java

原文链接：http://www.cnblogs.com/xuejianbest/p/10285020.html

版权

存储表的时候，由以下几点要注意：
写入hive表前用coalesce方法对原始数据进行重新分区。
因为读取的数据一般是纯文本，写入hive中的默认是用snappy压缩过的parquet（.snappy.parquet），所以分区数如果保持原来的话可能会造成每个.snappy.parquet文件只有20~30MB大小，一般将分区数除以3或4左右即可。

df.coalesce(df.rdd.getNumPartitions/3)  
    .write
    .mode(SaveMode.Append)
    .saveAsTable("tablename")

过滤掉那些为null的行，能防止处理数据过程中报空指针异常。删除行的方式为：

val res = df.na.drop(Seq("column1", "column2", "column3")) 
// 这3个字段只要有1个为null就过滤掉。

转载于:https://www.cnblogs.com/xuejianbest/p/10285020.html

优惠劵

weixin_33893473

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark：读取文本文件存为hive表最佳实践

存储表的时候，由以下几点要注意：写入hive表前用coalesce方法对原始数据进行重新分区。因为读取的数据一般是纯文本，写入hive中的默认是用snappy压缩过的parquet（.snappy.parquet），所以分区数如果保持原来的话可能会造成每个.snappy.parquet文件只有20~30MB大小，一般将分区数除以3或4左右即可。...
复制链接

扫一扫