hive
shdqiu
这个作者很懒,什么都没留下…
展开
-
通过spark sql创建HIVE的分区表
今天需要通过导入文本中的数据到HIVE数据库,而且因为预设该表的数据会比较大,所以采用分区表的设计方案。将表按地区和日期分区。在这个过程出现过一些BUG,记录以便后期查看。 spark.sql("use oracledb") spark.sql("CREATE TABLE IF NOT EXISTS " + tablename + " (OBUID STRING, BUS_ID STRING,R...原创 2018-06-11 14:00:50 · 14160 阅读 · 0 评论 -
通过py文件将文件中的数据导入到hive遇见的问题
因需要通过任务的方式执行将文本的数据导入到HIVE数据库中。所以考虑每次的任务通过命令执行py文件的方式来实现定时导入文件到HIVE数据库中。所以先做了一个测试,但是出行一些问题,现记录下来,供以后查看。测试脚本如下:# -*- coding: utf-8 -*- from __future__ import print_functionfrom pyspark.sql import Spark...原创 2018-06-06 17:41:48 · 1400 阅读 · 0 评论 -
数据清洗分析导出遇到的一些问题
本文简单记录一个学习过程,无技术含量,勿喷。环境:ambari:2.6.1spark 2.1python 3.6oracle 11.2sqoop 1.4最近一直在测试数据采集、清洗、分析、导出、展示的一系列的工作,主要数据流程如下:oracle 数据库-》hdfs-》hive-》oracle总的设计:通过任务调度的方式执行各个阶段的任务,其中各个任务通过脚本的方式实现,扩展的时候只需要增加对应的脚...原创 2018-06-28 10:36:56 · 2726 阅读 · 0 评论 -
spark 导入文件到hive出现多小文件的问题
环境:ambari:2.6.1spark 2.1python 3.6oracle 11.2sqoop 1.4将sqoop采集到HDFS中的文件导入到HIVE数据库,导入成功后,发现hive数据库中出现多个小文件的问题,严重影响后期数据分析的加载速度。解决方法:SJTable = spark.sql("select * from " + t...原创 2018-09-04 17:38:57 · 2897 阅读 · 2 评论 -
pypark处理文件异常处理。
环境:python:3.6spark:2.0datanode:3台,内存8g当使用通过spark加yarn的方式对一个4.6G的HDFS文件进行分析的时候,出现以下错误提示:org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 5 原因:分...原创 2018-09-05 09:18:36 · 293 阅读 · 0 评论