spark
文章平均质量分 51
一只勤奋爱思考的猪
爱记录、爱分享、爱学习、希望多多留下自己思考过疯狂过的痕迹!
展开
-
HDFS关联到hive外部表,并实现查询返回结果
背景现在已知有hdfs的分区文件,想创建一个hive外部表查询数据;解决方式解决方式1(亲测有效,推荐)1)首先创建hive外部表;CREATE TABLE dw.tab_a ( `id` bigint, `created_dt` string, `CRE_DATE` date, `UPD_DATE` TIMESTAMP, `CRE_USER` string, `UPD_USER` string)PARTITIONED BY (`dt` str原创 2021-05-20 14:53:44 · 733 阅读 · 0 评论 -
python并行调度spark任务
背景将实现某业务逻辑的pyspark代码翻译成sparksql,基于sparksql补充过去半年的历史数据(按天跑);核心点1)将pyspark翻译成sparksql;2)基于sparksql,补充过去半年的历史数据(按天跑);实现1)首先,pyspark翻译成spark sql,大部分直接翻译;基于原来共同的地方,可以缓冲一个cache表,后续不用多次计算;2)其次,翻译完sparksql之后,需要补充跑过去半年的数据;通常有几种方式:方式1,一天一天的轮询循环跑;方式2,并行跑;我尝试选原创 2021-05-16 12:50:21 · 925 阅读 · 0 评论 -
insert into table 的时候spark sql与hive sql的区别
背景今天用spark sql运行一个insert into 一张分区表table的语句,发现运行完之后hdfs路径没有体现出来分区的特点,而是显示像这样:hdfs:/xxx/part-02000-ed511ebe-b44e-4531-ae6d-18a170b30451-c000.snappy.parquet而如果用hive sql插入分区表的话,其路径是这样的:hdfs:/xxx/dt=20210427查表显示虽然spark sql和hive sql写入表之后的hdfs文件路径形式不一样,但原创 2021-05-16 11:42:53 · 719 阅读 · 0 评论