Spark 数据导入时的类型检测相关问题

最新推荐文章于 2021-02-24 09:56:14 发布

weixin_33827731

最新推荐文章于 2021-02-24 09:56:14 发布

阅读量320

点赞数

文章标签：大数据

原文链接：http://blog.51cto.com/xk0230/1927897

版权

Spark 可以读取文本，csv和rmdb中的数据，并且带有类型自动检测功能

public final static String DATA_SEPARATOR_TAB = "\t";

session.read().format("csv").option("delimiter", Constants.DATA_SEPARATOR_TAB).option("inferSchema", "true").option("header", "true").option("encoding", charset).csv(path).toDF(columnNames).write().mode(mode).saveAsTable(tempTable);

红色属性决定spark是否自动探测数据类型，如果不开启自动探测，默认都是string

rdbms导入到spark中默认会类型探测和对应，但是在处理sqlserver的时间类型有问题

如上图所示

只有datetime可以被spark识别并存储为日期类型，其他的都落地成了String类型，所以在执行data_formate时因为要多做一步转换所以性能会差很多

转载于:https://blog.51cto.com/xk0230/1927897

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33827731

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 数据导入时的类型检测相关问题

Spark 可以读取文本，csv和rmdb中的数据，并且带有类型自动检测功能public final static String DATA_SEPARATOR_TAB = "\t";session.read().format("csv").option("delimiter", Constants.DATA_SEPARATOR_TAB).option("inferSchema...
复制链接

扫一扫