5xh
码龄8年
关注
提问 私信
  • 博客:39,346
    39,346
    总访问量
  • 56
    原创
  • 435,396
    排名
  • 11
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2017-01-08
博客简介:

qq_37283909的博客

查看详细资料
个人成就
  • 获得17次点赞
  • 内容获得1次评论
  • 获得38次收藏
创作历程
  • 1篇
    2020年
  • 58篇
    2019年
成就勋章
TA的专栏
  • spark
    15篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

hive 的一些参数整理

mapreduce 参数:return Math.max(minSize, Math.min(maxSize, blockSize));mapreduce.input.fileinputformat.split.minsize (default 0)mapred.min.split.sizeThe minimum size chunk that map input should be split into. Note that some file formats may have minimum s
原创
发布博客 2020.12.23 ·
335 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkStreaming注意要点

http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSpark官网已经已经将用法与概念写的很详细了。这里写一点平时需要注意的要点。Spark:是以批处理为主,用微批处理来处理流数据Flink:以流处理为主,用流处理来处理批数据StreamingContextssc ==> Source ==>...
原创
发布博客 2019.05.30 ·
459 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

对未经优化的HashShuffleManager产生小文件数的验证。

小文件数 = M * R4*2 val dataRDD = sc.textFile("file:///E:\\ruozeinput.txt",4) dataRDD.flatMap(_.split("\t")).map((_,1)).reduceByKey(_ + _,2).foreach(println)5*3val dataRDD = sc.textFile("file...
原创
发布博客 2019.05.23 ·
330 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DataFrame API 小记

http://spark.apache.org/docs/latest/sql-getting-started.html官网写的很详细。这里只是个人觉得一些必要内容的摘抄。第一步:Starting Point: SparkSession:import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder...
原创
发布博客 2019.05.22 ·
468 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark SQL入门

Spark SQL is Apache Spark’s module for working with structured data.Spark SQL 是spark的模块用来处理结构化的数据(类似一张表,ORC/Parquet/JSON),不仅仅是SQL。Spark SQL是1.0版本出来的,1.3毕业的Spark 的 SQL框架:Spark SQL:是spark的一个分支而Hive...
原创
发布博客 2019.05.22 ·
173 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

共享变量与broadcast join

共享变量通常,当在远程集群节点上执行传递给Spark操作(例如mapor reduce)的函数时,它将在函数中使用的所有变量的单独副本上工作。这些变量被拷贝到每台机器上。并且远程计算机上的变量的更新不会传播回驱动程序。这样读写共享变量效率低下。但是,Spark确实为两种常见的使用模式提供了两种有限类型的共享变量:广播变量(broadcast variables)和计数器( accumulator...
原创
发布博客 2019.05.19 ·
1238 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

利用sparkcore进行ETL并输出为orc,parquet文件

前置条件:开启hivemetastore服务。能与hive进行交互[hadoop@hadoop-01 data]$ spark-shell --driver-class-path /home/hadoop/app/hive-1.1.0-cdh5.7.0/lib/mysql-connector-java.jarscala> import org.apache.spark.sql.hiv...
原创
发布博客 2019.05.17 ·
1408 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark的一些优化点

因为spark的计算都是基于内存的,他的瓶颈有:cpu,带宽(network bandwidth),memory。通常情况下,如果数据是在内存里面的,瓶颈就在带宽上面,你也可以做一些其他优化,如RDD序列化(减少内存的使用)。Data Serialization数据序列化序列化在我们的分布式应用中扮演了一个非常重要的角色。默认使用JAVA serialization,比较灵活但是比较慢而且...
原创
发布博客 2019.05.14 ·
251 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

了解spark-shell的启动流程

REPL :Read-Eval-Print Loop「读取-求值-输出」循环(英语:Read-Eval-Print Loop,简称REPL)是一个简单的,交互式的编程环境。#!/usr/bin/env bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor licens...
原创
发布博客 2019.05.14 ·
372 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

RDD常用算子的一些注意要点。

产生shuffle的算子,分区操作:repartition,coalesce。‘ByKey’操作(除了counting)如:groupByKey和reduceByKey。join操作:cogroup和joinrepartition源码: /** * Return a new RDD that has exactly numPartitions partitions. * * ...
原创
发布博客 2019.05.14 ·
386 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark on YARN 的一些碎碎念

Spark on YARN OverviewMR:base-processeach task in its own process:MapTask ReduceTask processwhen a task completes,the process goes awaySpark:base-threadmany tasks can run concurrently in a single...
原创
发布博客 2019.05.12 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

RDD的宽窄依赖

在设计RDD的接口时,一个有意思的问题是如何表现RDD之间的依赖。在RDD中将依赖划分成了两种类型:窄依赖(narrow dependencies)和宽依赖(wide dependencies)。窄依赖是指父RDD的每个分区都只被子RDD的一个分区所使用。相应的,那么宽依赖就是指父RDD的分区被多个子RDD的分区所依赖。例如,map就是一种窄依赖,而join则会导致宽依赖(除非父RDD是hash-...
原创
发布博客 2019.05.11 ·
694 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

关于cache()和persist()

/** * Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) /** * Persist this RDD with the default storage lev...
原创
发布博客 2019.05.10 ·
534 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

RDD的创建、操作

官网原文:There are two ways to create RDDs: parallelizing an existing collection in your driver program, or referencing a dataset in an external storage system, such as a shared filesystem, HDFS, HBase, o...
原创
发布博客 2019.05.08 ·
958 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

RDD深入讲解

RDD原码:https://github.com/apache/spark/tree/master/core/src/main/scala/org/apache/spark/rdd什么是RDD?一个弹性可分布式的数据集。弹性主要体现在计算之上。他是spark里一个最基本的抽象单元。代表了一个immutable(不可变的),能够并行操作的可以被分区的数据集 partitioned collect...
原创
发布博客 2019.05.07 ·
203 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark的运行架构

原官网。http://spark.apache.org/docs/latest/cluster-overview.html术语含义Application基于spark构建的用户程序代码。由集群上的一个driver program 和多个executorApplication jar一个包含用户Spark应用的JarDriver program这是一个进程,运...
原创
发布博客 2019.05.07 ·
1329 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Scala基础三

字符串差值val name = "zhangsan"println("name is:"+name) //这种写法不友好println(s"name is:$name")//前面加个s ,调用时使用美金符$文件操作val source = Source.fromFile("E://") for (str <- source.getlines()){ pri...
原创
发布博客 2019.04.26 ·
224 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala基础2

继承子类extends 父类package com.ruozedata.bigdata.scala03//父类class Person { var name : String =_ var age :Int = _}package com.ruozedata.bigdata.scala03//子类class Student extends Person{//name继承...
原创
发布博客 2019.04.26 ·
171 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala基础

声明变量Scala中声明变量的格式:var 变量名=初始值 val 变量名 = 初始值var 变量名:数据类型=初始值 val变量名:数据类型 = 初始值scala> val user:String="jdfs"user: String = jdfsscala> val name="kkk" ##声明未指定类型时,scala...
原创
发布博客 2019.04.23 ·
163 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE在MySQL中的元数据表的一些介绍

hive在mysql里的元数据表:这些表一些表有助于我们更加了解hive的执行。如:VERSIONDBSTBLSSDSCOLUMNS_V2PARTITIONSPARTITION_KEYSPARTITION_VALUES…---------------------------+| Tables_in_hive |+-------------------...
原创
发布博客 2019.04.22 ·
740 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多