spark
shdqiu
这个作者很懒,什么都没留下…
展开
-
spark读Hadoop文本文件到hive
环境centos:7.2python2:2.7.5python3:3.6.5spart:2.2.0ambari:2.6.1hdp:2.6.4一、指定pyspark的python 通过python3运行 1.软连接python3到/usr/bin/目录下 ln -s /usr/local/python3/bin/python3 /usr/bin/ 2.修改/usr/bin/pyspark文件 在...原创 2018-05-09 11:21:53 · 1073 阅读 · 0 评论 -
通过spark sql创建HIVE的分区表
今天需要通过导入文本中的数据到HIVE数据库,而且因为预设该表的数据会比较大,所以采用分区表的设计方案。将表按地区和日期分区。在这个过程出现过一些BUG,记录以便后期查看。 spark.sql("use oracledb") spark.sql("CREATE TABLE IF NOT EXISTS " + tablename + " (OBUID STRING, BUS_ID STRING,R...原创 2018-06-11 14:00:50 · 14014 阅读 · 0 评论 -
通过py文件将文件中的数据导入到hive遇见的问题
因需要通过任务的方式执行将文本的数据导入到HIVE数据库中。所以考虑每次的任务通过命令执行py文件的方式来实现定时导入文件到HIVE数据库中。所以先做了一个测试,但是出行一些问题,现记录下来,供以后查看。测试脚本如下:# -*- coding: utf-8 -*- from __future__ import print_functionfrom pyspark.sql import Spark...原创 2018-06-06 17:41:48 · 1375 阅读 · 0 评论 -
数据清洗分析导出遇到的一些问题
本文简单记录一个学习过程,无技术含量,勿喷。环境:ambari:2.6.1spark 2.1python 3.6oracle 11.2sqoop 1.4最近一直在测试数据采集、清洗、分析、导出、展示的一系列的工作,主要数据流程如下:oracle 数据库-》hdfs-》hive-》oracle总的设计:通过任务调度的方式执行各个阶段的任务,其中各个任务通过脚本的方式实现,扩展的时候只需要增加对应的脚...原创 2018-06-28 10:36:56 · 2675 阅读 · 0 评论 -
spark 导入文件到hive出现多小文件的问题
环境:ambari:2.6.1spark 2.1python 3.6oracle 11.2sqoop 1.4将sqoop采集到HDFS中的文件导入到HIVE数据库,导入成功后,发现hive数据库中出现多个小文件的问题,严重影响后期数据分析的加载速度。解决方法:SJTable = spark.sql("select * from " + t...原创 2018-09-04 17:38:57 · 2814 阅读 · 2 评论 -
pypark处理文件异常处理。
环境:python:3.6spark:2.0datanode:3台,内存8g当使用通过spark加yarn的方式对一个4.6G的HDFS文件进行分析的时候,出现以下错误提示:org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 5 原因:分...原创 2018-09-05 09:18:36 · 269 阅读 · 0 评论 -
Yarn application has already ended! It might have been killed or unable to launch application master
环境:ambari+hdp 2.7.3出现背景:nodename服务器出现异常,发生重启。出现问题:以前能跑的pyspark脚本,运行的时候Yarn application has already ended! It might have been killed or unable to launch application master的错误。解决方法:1.在ambari中重启y...原创 2019-01-25 14:40:02 · 2715 阅读 · 0 评论 -
spark 日志带来的空间问题
环境:ambari +hdp2.6.4最近发现hdfs的空间越来越少,少到影响数据分析处理了。使用名称查看一下到底是谁占了空间:hadoop fs -du -h /发现有两个文件夹站的空间是最大的:一个是/app-logs一个是/spark2-history删除文件夹下内容设置定时清理:## spark2-history日志spark.history.fs...原创 2019-02-28 11:43:53 · 521 阅读 · 2 评论