spark sql之hint 学习

最新推荐文章于 2024-07-09 10:07:06 发布

cclovezbf

最新推荐文章于 2024-07-09 10:07:06 发布

阅读量4.7k

点赞数 3

分类专栏： spark 文章标签： spark sql 大数据

本文链接：https://blog.csdn.net/cclovezbf/article/details/122695758

版权

spark 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

官网永远是学习的最好地方。

Hints - Spark 3.2.0 Documentationhttps://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-hints.html

    public static void main(String[] args) throws KuduException, InterruptedException {
        SparkConf sparkConf = new SparkConf().setMaster("yarn").setAppName("KuduCompareHive");
        if (System.getProperty("os.name").toLowerCase().contains("windows")) {
            sparkConf = new SparkConf().setMaster("local[*]").setAppName("dp");
            sparkConf.set("spark.driver.memory", "1g").set("spark.testing.memory", "1073740000");
            //这个是我本地认证kerberos集群的代码。不认证不用管
            //kerberos_auth();
        }
        SparkSession session = SparkSession.builder().config(sparkConf)
                .enableHiveSupport().getOrCreate();

        Dataset<Row> dataset = session.sql("select " +
                "concat( biz_id,'----',concat_ws(',',collect_list(src_supplier_id))) src_supplier_ids\n" +
                "from dwiadata.ia_fdw_hr_company_contact_info_relation_detail" +
                " group by biz_id ");
        dataset.explain(true);
        dataset.write().mode(SaveMode.Overwrite).text("file:///D:\\install\\code\\tencent\\dw_ia_portraitsearch\\output\\common");
        Dataset<Row> dataset2 = session.sql("select /*+REPARTITION(10) */  " +
                "concat( biz_id,'----',concat_ws(',',collect_list(src_supplier_id))) src_supplier_ids\n" +
                "from dwiadata.ia_fdw_hr_company_contact_info_relation_detail" +
                " group by biz_id ");
        dataset2.explain(true);
        dataset2.write().mode(SaveMode.Overwrite).text("file:///D:\\install\\code\\tencent\\dw_ia_portraitsearch\\output\\hint");
        Thread.sleep(Integer.MAX_VALUE);
        session.close();
    }

上述注意下我是直接写成text了方便阅读。 file:///是写到本地windows的都是为了方便观察。

第一个sql就是普通的 select biz_id,src_supplier_id from t group by biz_id

第二个sql就是hint的 select /*+REPARTITION(10) */biz_id,src_supplier_id from t group by biz_id