大数据
liuwff
这个作者很懒,什么都没留下…
展开
-
hive-hive分区表添加新字段后老分区中读取为NULL的解决方法
某次需求要给hive表添加两个字段并回刷数据,本以为很简单的事情三下五除二加了字段:alter table app.tableName add columns( browse_pv_sum BIGINT, click_pv_sum BIGINT);修改脚本开刷完成!????结果一查数据,新字段显示为’NULL’!? 本以为是脚本改错了导致数据没生成,结果各种修改一通操作,折腾1个多小时愣是没好,这也是脑子陷入了死磕到底的二愣模式,最后直接把两个字段写死成‘1’来进行插入,结果查询仍然是’NUL原创 2020-06-28 17:13:20 · 916 阅读 · 0 评论 -
VScode中pyspark调试配置以及无法启动调试问题
首先说明,我并非专业大数据开发者,因为目前工作中开发一些python/shell脚本,用来在公司的大数据集群上进行大数据任务,因此在本地搭建了spark环境来测试和学习spark的API之用,我想肯定有很多人和我一样,因此写下来以供查阅,以期能对大家有所帮助。VSCode配置python下载并安装python并配置环境变量(python命令一般是python2,python3则一般指向...原创 2020-04-21 17:36:32 · 4832 阅读 · 0 评论 -
pyspark的环境配置
spark下载地址sparkspark包下载并解压后,进入解压的spark文件夹下的bin文件,并执行./spark-shell,若出现以下界面,则表示spark配置ok了。spark环境配置配置SPARK_HOME环境变量。打开 ~/.bash_profile文件,配置SPARK_HOME以及PATHexport SPARK_HOME=/usr/local/spark/spar...原创 2020-04-13 17:59:35 · 5460 阅读 · 0 评论