囧芝麻
码龄9年
求更新 关注
提问 私信
  • 博客:49,853
    49,853
    总访问量
  • 47
    原创
  • 10
    粉丝
  • 100
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
加入CSDN时间: 2016-09-21

个人简介:简简单单的陪伴,平平淡淡的幸福

博客简介:

囧芝麻的博客

博客描述:
欣若相遇,只为初见
查看详细资料
个人成就
  • 获得6次点赞
  • 内容获得0次评论
  • 获得9次收藏
  • 博客总排名1,500,838名
创作历程
  • 3篇
    2018年
  • 45篇
    2017年
成就勋章
TA的专栏
  • Spark
    25篇
  • 算法
  • Hadoop
  • Spark性能调优
    10篇
  • SparkSQL
    9篇
  • ELK技术栈
    3篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 3

TA参与的活动 0

兴趣领域 设置
  • 运维
    容器devops自动化kubernetes运维开发
  • 服务器
    linuxcentos
创作活动更多

新星杯·14天创作挑战营·第13期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛!注: 1、参赛者可以进入活动群进行交流、互相鼓励与支持(开卷),虚竹哥会分享创作心得和涨粉心得,答疑及活动群请见:https://bbs.csdn.net/topics/619781944 【进活动群,得奖概率会更大,因为有辅导】 2、文章质量分查询:https://www.csdn.net/qc

75人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

从Spark架构中透视Sparkjob

Master接收客户端提交作业的请求,并为客户端分配具体的计算资源。worker进程中主要负责当前节点上的机器的内存和cpu等资源的使用。 Spark是主从分布式的。Spark-shell默认情况下没有任何Job。Driver也是一种Executor进程。 Driver驱动整个集群去工作。 一个Worker可以有多个Executor。在Spark中,无论程序中有多少作业。都是复用注册时使用的资
原创
博文更新于 2017.06.01 ·
482 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ElasticSearch核心概念

1、lucene和elasticsearch的前世今生 2、elasticsearch的核心概念 3、elasticsearch核心概念 vs. 数据库核心概念1、lucene和elasticsearch的前世今生lucene,最先进、功能最强大的搜索库,直接基于lucene开发,非常复杂,api复杂(实现一些简单的功能,写大量的java代码),需要深入理解原理(各种索引结构)...
原创
博文更新于 2018.03.19 ·
358 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Elasticsearch的功能、特点介绍

1、Elasticsearch的功能,干什么的 2、Elasticsearch的适用场景,能在什么地方发挥作用 3、Elasticsearch的特点,跟其他类似的东西不同的地方在哪里1、Elasticsearch的功能(1)分布式的搜索引擎和数据分析引擎搜索:百度,网站的站内搜索,IT系统的检索 数据分析:电商网站,最近7天牙膏这种商品销量排名前10的商家有哪些;新闻网站,最...
原创
博文更新于 2018.03.19 ·
2532 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Elasticsearch倒排索引

Elasticsearch,分布式,高性能,高可用,可伸缩的搜索和分析系统1、什么是搜索? 2、如果用数据库做搜索会怎么样? 3、什么是全文检索、倒排索引和Lucene? 4、什么是Elasticsearch?1、什么是搜索?百度:我们比如说想找寻任何的信息的时候,就会上百度去搜索一下,比如说找一部自己喜欢的电影,或者说找一本喜欢的书,或者找一条感兴趣的新闻(提到搜索的第一印...
原创
博文更新于 2018.03.19 ·
812 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

企业大数据平台架构

目录:什么是大数据Hadoop介绍-HDFS、MR、Hbase大数据平台应用举例-腾讯公司的大数据平台架构“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。大数据的4V特征-来源公司的“大数据”随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:1、业务系统
转载
博文更新于 2017.08.02 ·
6133 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark SQL下Parquet内幕深度解密

一.SparkSQL下的Parquet意义再思考Twitter用Parquet节省了70%存储费用。如果HDFS是大数据时代分布式文件系统存储的事实标准的话,Parquet则是整个大数据时代文件存储格式的事实标准速度更快:从使用SparkSQL操作普通文件CSV和Parquet文件的速度对比上来看,绝大多数情况下,使用Parquet会比使用CSV等普通文件速度提升10倍左右(在一些变通文件系统无
原创
博文更新于 2017.06.10 ·
897 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark SQL下的Parquet使用最佳实践和代码实战

一:Spark SQL下的Parquet使用最佳实践1,过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式:A)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDFS Parquet -> SparkSQL/impala -> Result Service(可以放在DB中,也有可能被通过JDBC/ODBC来作为数据服务使用);B
原创
博文更新于 2017.06.10 ·
617 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSQL下Parquet中PushDown的实现

Hive中也有PushDown。PushDown可以极大减少数据输入,极大的提高处理效率。SparkSQL实现了PushDown,在Parquet文件中实现PushDown具有很重要的意义。PushDown是一种SQL优化方式,通常用在查询。应用场景:假设通过DataFrame,df.select(a,b,c).filter(by a).filter(by b).select(c).filter(b
原创
博文更新于 2017.06.09 ·
1800 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作

什么是非动态转换?=> 提前已经知道了RDD具体数据的元数据信息,可以通过JavaBean或Case Class的方式提前创建DataFrame时,通过反射的方式获得元数据信息。什么是动态转换?=> 无法提前知道具体的RDD每个Record的列的个数及每列的类型只有在运行时才能知道。这种情况在生产环境下更常见。因为在生产环境下提前知道数据的元数据信息的可能性不大。另外,生产环境下业务会变化,业务变化
原创
博文更新于 2017.06.09 ·
1088 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

使用Java和Scala在IDE中实战RDD和DataFrame转换操作

一. RDD与DataFrame转换的重大意义在Spark中RDD可以直接转换成DataFrame。SparkCore的核心是RDD,所有的调度都是基于RDD完成的,对RDD的操作都可以转换成基于DataFrame使用SparkSQL来操作。RDD可能接上数据库,接上NoSQL,其他文件系统等各种数据来源,然后将数据转换为DataFrame,极大简化了大数据的开发,原来写Scala\Java,现在只
原创
博文更新于 2017.06.09 ·
874 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用Java和Scala在IDE中开发DataFrame

Java版本代码如下:import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLContext;/** * 使用Java的方式实战对DataFrame的操作 */pub
原创
博文更新于 2017.06.09 ·
553 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSQL on Hive配置与实战

首先要配置好hive,保存元数据到mysql中,这个大家自己查资料!然后配置Spark SQL, 1.配置hive-site.xml 在master1上的/usr/local/spark/spark-1.6.0-bin-hadoop2.6/conf目录创建hive-site.xml文件,内容如下: <configuration> <property> <name>hive.m
原创
博文更新于 2017.06.08 ·
628 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark SQL和DataFrame的本质

1, Spark SQL和DataFrame(DataSet,还没有深度去使用)2, DataFrame与RDD3, 企业级最佳实践一:Spark SQL和DataFrame1, Spark SQL是除了Spark Core以外最大的和最受关注的组件。a) 其更加强大,可以操作各种数据来源和各种格式的数据;用户可以扩展Spark SQL的功能来支持更多类型的数据(例如Kudu)。b
原创
博文更新于 2017.06.08 ·
779 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

60分钟内从零起步驾驭Hive实战学习笔记

SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行,还有一部分在Hadoop中运行。所以讲SparkSQL必须讲Hive。一.Hive的本质:Hive是分布式数据仓库,同时又是查询引擎,所以SparkSQL取代的只是Hives的查询引擎,在企业实际生产环境下,
原创
博文更新于 2017.06.08 ·
1421 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark性能调优(十)之Spark统一内存管理

一:Memory Manager在Spark 1.6 版本中,memoryManager 的选择是由spark.memory.useLegacyMode=false决定的。如果采用1.6之前的模型,这会使用StaticMemoryManager来管理,否则使用新的UnifiedMemoryManager,我们先看看1.6之前,对于一个Executor,内存都有哪些部分构成:1,ExecutionMe
原创
博文更新于 2017.06.06 ·
785 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark性能调优(九)之Spark Tungsten内存使用

一:Tungsten中到底什么是Page? 1.在Spark其实不存在Page这个类的。Page是一种数据结构(类似于Stack,List等),从OS层面上讲,Page代表了一个内存块,在Page里面可以存放数据,在OS中会存放很多不同的Page,当要获得数据的时候首先要定位具体是哪个Page中的数据,找到该Page之后从Page中根据特定的规则(例如说数据的offset和length)取出数据
原创
博文更新于 2017.06.06 ·
524 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark性能调优(八)之Spark Tungsten-sort Based Shuffle

一:使用Tungsten功能 1, 如果想让您的程序使用Tungsten的功能,可以配置: Spark.Shuffle.Manager = tungsten-sort Tungsten中文blogTungsten英文blogSpark在钨丝计划下要管理两种类型的内存存储方式:堆内和堆外。为了管理他们,所以搞了一个Page。 堆外:指针直接指向数据本身。 堆内:指针首先指向Object
原创
博文更新于 2017.06.06 ·
613 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark性能调优(七)之钨丝计划

一:“钨丝计划”产生的本质原因1,Spark作为一个一体化多元化的(大)数据处理通用平台,性能一直是其根本性的追求之一,Spark基于内存迭代(部分基于磁盘迭代)的模型极大的满足了人们对分布式系统处理性能的渴望,但是有Spark事采用Scala+Java语言编写的所以运行在JVM平台,当然JVM是一个绝对伟大的平台,因为JVM让整个离散的主机融为一体(网络即OS),但是JVM的死穴GC反过来限制了S
原创
博文更新于 2017.06.06 ·
735 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark性能调优(六)

一:Shuffle性能调优1,问题:Shuffle output file lost?真正的原因是GC导致的!!!如果GC尤其是Full GC产生通常会导致线程停止工作,这个时候下一个Stage的Task在默认情况下就会尝试重试来获取数据,一般重试3次每次重试的时间为5s,也就是说默认情况下15s内如果还是无法抓到数据的话,就会出现Shuffle output file lost等情况,进而会导致T
原创
博文更新于 2017.06.06 ·
487 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark性能调优(五)

一:性能优化之数据本地性1,数据本地性对分布式系统的性能而言是一件最为重要的事情(之一),程序运行本身包含代码和数据两部分,单机版本一般情况下很少数据本地性的问题(因为数据在本地),但是对于单机版本的程序由于数据本地性有PROCESS_LOCAL和NODE_LOCAL之分,所以我们还是尽量的让数据处于PROCESS_LOCAL;Spark作为分布式系统更加注意数据本地性,在Spark中数据本地性分为
原创
博文更新于 2017.06.06 ·
448 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多