![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
fengyuruhui123
我比较认同电影《教父》里的人生观: 第一步要努力实现自我价值,第二步要全力照顾好家人,第三步要尽可能帮助善良的人,第四步为族群发声,第五步为国家争荣誉。 事实上作为男人,前两步成功,人生已算得上圆满,做到第三步堪称伟大,而随意颠倒次序的那些人,一般不值得信任。
展开
-
Spark 学习日志
《一》原创 2017-05-05 14:55:23 · 240 阅读 · 0 评论 -
『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task
1. spark 运行原理这一节是本文的核心,我们可以先抛出一个问题,如果看完这一节,或者这一章之后,你能理解你的整个 spark 应用的执行流程,那就可以关掉这个网页了[对了,关掉网页之前记得分享一下哦,哈哈]Problem: How does user program get translated into units of physical execution ?我们用一个例子来说明,结合例子原创 2017-10-10 14:32:02 · 360 阅读 · 0 评论 -
使用pandas优化Spark内存消耗(节省90%)
一般来说,用pandas处理小于100兆的数据,性能不是问题。当用pandas来处理100兆至几个G的数据时,将会比较耗时,同时会导致程序因内存不足而运行失败。当然,像Spark这类的工具能够胜任处理100G至几个T的大数据集,但要想充分发挥这些工具的优势,通常需要比较贵的硬件设备。而且,这些工具不像pandas那样具有丰富的进行高质量数据清洗、探索和分析的特性。对于中等规模的数据,我们的愿望是尽量翻译 2017-10-09 18:14:10 · 4887 阅读 · 0 评论 -
『 Spark 』5. 不能错过的 spark 学习资源
1. 书籍,在线文档Learning SparkAdvanced.Analytics.with.SparkMastering Apache SparkOfficial GuideSpark Guide by Cloudera2. 网站official siteuser mailing listspark channel on youtubespark summitspark t原创 2017-10-10 14:37:39 · 603 阅读 · 0 评论 -
『 Spark 』4. spark 之 RDD
1. 什么是RDD先看下源码里是怎么描述RDD的。Internally, each RDD is characterized by five main properties:A list of partitionsA function for computing each split A list of dependencies on other RDDsOptionally, a Part原创 2017-10-10 15:14:20 · 284 阅读 · 0 评论 -
『 Spark 』9. spark 应用程序性能优化|12 个优化方法
1.优化? Why? How? When? What?“spark 应用程序也需要优化?”,很多人可能会有这个疑问,“不是已经有代码生成器,执行优化器,pipeline 什么的了的吗?”。是的,spark 的确是有一些列强大的内置工具,让你的代码在执行时更快。但是,如果一切都依赖于工具,框架来做的话,我想那只能说明两个问题:你对这个框架仅仅是知其然,而非知其所以然;看来你也只是照葫芦画瓢而已,没原创 2017-10-24 11:43:47 · 480 阅读 · 0 评论 -
『 Spark 』10. spark 机器学习
1. Spark! More than A Framework!还记得我们的第一篇 Spark 博文里的这张图吗?其实我觉得 spark 有两个层次的概念:一个通用的分布式计算框架,spark core基于 spark core 设计,无缝实现的库,dataframe,sql,mllib,graphx,bagel, streaming, sparkR 以及一些第三方包我之所以一开始很看好 sp原创 2017-11-08 16:11:52 · 597 阅读 · 0 评论 -
『 Spark 』3. spark 编程模式
1. spark 基本编程模式spark 里有两个很重要的概念:SparkContext [一般简称为 sc] 和 RDD,在上一篇文章中 『 Spark 』2. spark 基本概念解析 有讲到。可以说,sc 和 RDD 贯穿了 spark app 的大部分生命周期,从 app 的初始化,到数据的清洗,计算,到最后获取,展示结果。为了更加深入的了解 RDD 和基于 RDD 的编程模型,我们先把原创 2017-10-23 11:48:05 · 360 阅读 · 0 评论 -
『 Spark 』2. spark 基本概念解析
Application用户在 spark 上构建的程序,包含了 driver 程序以及在集群上运行的程序代码,物理机器上涉及了 driver,master,worker 三个节点.Driver Program创建 sc ,定义 udf 函数,定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。Cluster Manager集群的资源管理器,在集群上获取资源的外部服务原创 2017-10-23 14:42:20 · 433 阅读 · 0 评论 -
『 Spark 』1. spark 简介
如何向别人介绍 sparkApache Spark™ is a fast and general engine for large-scale data processing.Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala原创 2017-10-23 14:52:14 · 408 阅读 · 0 评论 -
『 Spark 』8. 实战案例 | Spark 在金融领域的应用 | 日内走势预测
1. 同花顺收费版之走势预测2014年后半年开始,国内 A 股市场可谓是热火朝天啊,路上的人谈的都是股票。小弟虽然就职金融互联网公司,但之前从来没有买过股票,但每天听着别人又赚了几套房几辆车,那叫一个心痒痒啊,那感觉,就跟一个出浴美女和你共处一室,但你却要死忍住不去掀开浴巾一样。终于,小弟还是”犯了全天下男人都会犯的错误”,还是在 2015.03.19 那天入市了,还记得自己的第一次是献给了一支叫原创 2017-09-22 13:53:41 · 1571 阅读 · 1 评论 -
Spark
Spark Docs(R/Python/Java/Scala)原创 2017-09-22 10:58:32 · 218 阅读 · 0 评论 -
Spark 之Broadcast
broadcast功能broadcast解析原创 2017-05-11 13:47:05 · 385 阅读 · 0 评论 -
Building Spark
This will become a table of contents (this text will be scraped). {:toc}Building Spark using Maven requires Maven 3.3.3 or newer and Java 7+. The Spark build can supply a suitable Maven binary; see转载 2017-05-23 17:43:18 · 379 阅读 · 0 评论 -
Scala implicit
Scala implicit原创 2017-05-16 14:59:23 · 235 阅读 · 0 评论 -
Spark SQL
Spark SQL 之 DataFrameSpark SQL 之 Data SourcesSpark SQL 之 Performance Tuning & Distributed SQL EngineSpark SQL 之 Migration GuideSpark SQL 官方文档-中文翻译原创 2017-05-16 16:51:22 · 307 阅读 · 0 评论 -
Spark SQL性能优化
Spark SQL性能优化原创 2017-05-16 19:04:44 · 300 阅读 · 0 评论 -
spark.sql.hive.convertMetastoreParquet参数优化
Hive metastore Parquet表转换(Hive metastore Parquet table conversion) 当向Hive metastore中读写Parquet表时,Spark SQL将使用Spark SQL自带的Parquet SerDe(SerDe:Serialize/Deserilize的简称,目的是用于序列化和反序列化),而不是用Hive的SerDe,Spark原创 2017-05-16 20:07:23 · 7724 阅读 · 0 评论 -
SparkSQL之优化器Catalyst系统
大数据优化器与传统优化器最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL优化器原创 2017-09-20 12:32:52 · 910 阅读 · 0 评论 -
关于CarbonData+Spark SQL的一些应用实践和调优
大数据时代,中大型企业数据的爆发式增长,几乎每天都能产生约 100GB 到 10TB 的数据。而企业数据分系统构建与扩张,导致不同应用场景下大数据冗余严重。行业亟需一个高效、统一的融合数仓,从海量数据中快速获取有效信息,从而洞察机遇、规避风险。在这样的现状下,CarbonData 诞生了,作为首个由中国贡献给Apache社区的顶级开源项目,CarbonData 提供了一种新的融合数据存储方案,以一份翻译 2017-09-20 15:47:41 · 4335 阅读 · 0 评论 -
『 Spark 』7. 使用 Spark DataFrame 进行大数据分析
1. 什么是 spark dataframe先来看看官方原汁原味的文档是怎么介绍的:A DataFrame is a distributed collection of data organized into named columns. It is conceptually equivalent to a table in a relational database or a data frame原创 2017-09-21 18:18:33 · 1508 阅读 · 0 评论 -
Spark Streaming 之 Checkpoint
转载于“牛肉圆粉不加葱” 链接:http://www.jianshu.com/p/00b591c5f623一个 Streaming Application 往往需要7*24不间断的跑,所以需要有抵御意外的能力(比如机器或者系统挂掉,JVM crash等)。为了让这成为可能,Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application转载 2017-11-26 12:15:53 · 391 阅读 · 0 评论