![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 64
强哥叨逼叨
微信公众号:强哥叨逼叨
展开
-
pyspark保存文件FileAlreadyExistsException问题解决
入坑前一阵子,强哥遇到一个需求,通过livy执行pyspark编写的sql语句,将sql的查询结果转成csv文件存入s3上。大致的代码如下:原创 2021-06-18 13:38:08 · 3266 阅读 · 1 评论 -
pyspark读取和存入数据的三种方法2021-04-30
转自:https://blog.csdn.net/bowenlaw/article/details/106826553pyspark读取数据方法一:从hdfs读取# -*- coding: utf-8 -*from pyspark.sql import SparkSession, HiveContext,DataFrameWriterimport argparseimport timeimport numpy as npimport pandas as pdspark = Sp转载 2021-04-30 11:44:13 · 741 阅读 · 0 评论 -
Spark实现行列转换pivot和unpivot
背景做过数据清洗ETL工作的都知道,行列转换是一个常见的数据整理需求。在不同的编程语言中有不同的实现方法,比如SQL中使用case+group,或者Power BI的M语言中用拖放组件实现。今天正好需要在pyspark中处理一个数据行列转换,就把这个方法记录下来。首先明确一下啥叫行列转换,因为这个叫法也不是很统一,有的地方叫转置,有的地方叫透视,不一而足。我们就以下图为例,定义如下:从左边这种变成右边这种,叫透视(pivot) 反之叫逆透视(unpivot)Spark实...转载 2021-03-17 15:55:13 · 456 阅读 · 0 评论 -
数据仓库--通用的数据仓库分层方法
本文转自:https://www.cnblogs.com/itboys/p/10592871.html数据仓库--通用的数据仓库分层方法0x00 概述数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计,或缺少明确而详细的说明,或缺少可落地实施的方案,或缺少具体的示例说明。因此,本文将指出一种通用的数据仓库分层方法,具体包含如下内容:介绍数据分层的作用提出一种通用的数据分层设计,以转载 2020-11-25 11:48:15 · 716 阅读 · 0 评论 -
数据仓库的架构与设计
本文转自:https://blog.csdn.net/Trigl/article/details/68944434公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有:什么是数据仓库? 数据仓库的架构 数据仓库多维数据模型的设计1. 什么是数据仓库1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程转载 2020-11-24 20:07:16 · 280 阅读 · 0 评论 -
基于 Amazon S3 和 HIVE 的统计
本文转自:https://www.dazhuanlan.com/2019/11/28/5ddf990c5fcb9/当业务数量量越来越大时,通过在数据库中写 SQL 语句进行统计就变的越来越困难了,尽管可以通过不断优化 SQL 语句,比如,通过 EXPLAIN 查看执行计划,建立索引,子查询与连接查询选择,等等。但面对越来越大的数据量,还是会无力回天。这时,可以将业务数据存储到 Hadoop文档系统 上,借助 HIVE 进行统计,然后,再将统计结果导入业务数据库,供业务调用。大数据统计思路当统转载 2020-11-19 17:33:07 · 630 阅读 · 0 评论 -
spark、hive、hbase以及和Hadoop的关系
本文转自:https://www.cnblogs.com/wangyalou/p/9532347.html首先我们来看一下spark究竟是什么。相信很多读者跟我一样,听说过hadoop,也知道spark,更知道spark是现在最火的大数据技术,所以一直有一个疑问:spark是不是替代能够hadoop的下一代大数据技术?答案是:不是!首先我们看看spark的官网介绍:Apache Spark is a fast and general-purpose cluster computing system.转载 2020-11-19 15:31:48 · 7936 阅读 · 2 评论 -
循序渐进,了解Hive是什么!
循序渐进,了解Hive是什么!一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识。那么,一般对陌生事物的认知都会经历下面几个阶段:为什么会出现?解决了什么问题? 如何搭建?如何使用? 如何精通?我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料。第三个问题,就得慢慢靠实践和时间积累了。如果有什么问题,可以直接留言!为什么出现?解决了什么问题?背景说到这个问题,还得先说个小故事,在很久很久以前....有一个叫face转载 2020-11-19 15:16:23 · 205 阅读 · 0 评论 -
大数据框架对比:Hadoop、Storm、Samza、Spark 和 Flink
简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。转载 2020-09-08 15:19:09 · 477 阅读 · 0 评论