自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

网络空间发展与战略研究

致力于网络空间前沿技术和产业趋势。

  • 博客(10)
  • 资源 (4)
  • 收藏
  • 关注

转载 Spark Catalyst的实现分析

Spark SQL是Spark内部最核心以及社区最为活跃的组件,也是未来Spark对End-User最好的接口,支持SQL语句和类RDD的Dataset/DataFrame接口。相比在传统的RDD上进行开发,Spark SQL的业务逻辑在执行前和执行过程中都有相应的优化工具对其进行自动优化(即Spark Catalyst以及Tungsten两个组件),因此未来Spark SQL肯定是主流。在S

2018-01-12 09:47:12 3974 1

转载 为Catalyst创建用户自定义的优化规则

Spark 2.0 is the next major release of Apache Spark. This release brings major changes to abstractions, API’s and libraries of the platform. This release sets the tone for next year’s direction of the

2018-01-11 18:37:26 423

转载 Spark SQL Catalyst源码分析之TreeNode Library

/** Spark SQL源码分析系列文章*/    前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer,本来打算直接写Optimizer的,但是发现忘记介绍TreeNode这个Catalyst的核心概念,介绍这个可以更好的理解Optimizer是如何对Analyzed Logical Plan进行优化的生成Optimized L

2018-01-11 15:24:00 330

转载 Spark SQL Catalyst源码分析之Optimizer

/** Spark SQL源码分析系列文章*/ 原文链接:http://blog.csdn.net/oopsoom/article/details/38121259  前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer 以及核心类库TreeNode,本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimize

2018-01-11 14:32:04 473

转载 数据仓库建模:星型模式和雪花模式

数据仓库建模 — 星型模式Example of Star Schema数据仓库建模 — 雪片模式Example of Snowflake Schema节省存储空间一定程度上的范式星形 vs.雪花型Which one is better?长期以来的争论两种观点各有支持者争论在继续……目前看来,大部分更加倾向于星型

2018-01-10 15:31:41 2735

转载 CDH5.9.0集群部署与搭建

原文:http://blog.csdn.net/yizheyouye/article/details/53173912目录(?)[-]下载CDH各种RPM包1 下载cloudera-manager-installerbin2 下载对应平台架构的RPMS设置IP地址所有节点1 设置IP地址和网关2 设置主机名设置hosts文件所有节点关闭防火墙

2018-01-08 16:31:08 400

转载 Spark SQL 物理执行计划各操作实现

版权声明:原文链接:http://blog.csdn.net/pelick/article/details/22748841目录(?)[+]SparkStrategy: logical to physicalCatalyst作为一个实现无关的查询优化框架,在优化后的逻辑执行计划到真正的物理执行计划这部分只提供了接口,没有提供像Analyzer和Optimiz

2018-01-01 23:43:17 742

转载 Catalyst 优化逻辑执行计划规则

版权声明:原文链接:http://blog.csdn.net/pelick/article/details/22723699目录(?)[+]Optimizer本文分析Catalyst Optimize部分实现的对逻辑执行计划(LogicalPlan)的处理规则。Optimizer处理的是LogicalPlan对象。Optimi

2018-01-01 23:41:11 462

转载 Spark Catalyst 源码分析

版权声明:原文链接:http://blog.csdn.net/pelick/article/details/22302003目录(?)[+]ArchitectureØ 把输入的SQL,parse成unresolved logical plan,这一步参考SqlParser的实现Ø 把unresolved logical plan转

2018-01-01 23:39:12 522

转载 Spark SQL组件源码分析

版权声明:原文链接:http://blog.csdn.net/pelick/article/details/21788953目录(?)[-]功能Catalyst介绍分析总结功能Spark新发布的Spark SQL组件让Spark对SQL有了别样于Shark基于Hive的支持。参考官方手册,具体分三部分:其一,能在Scala代码里写SQL,

2018-01-01 23:37:19 353

NIST 800-172 受控非密信息保护增强安全要求 - 副本.pdf

美国国家标准和技术研究所NIST SP 800-172,第三节内容安全要求

2021-03-25

nlp-lang-0.3.jar

ansj_seg-2.0.8.jar的依赖包, nlp-lang-0.3.jar包需要和其共同加入到spark依赖中

2015-07-18

ansj_seg-2.0.8.jar

由于spark传输数据必须进行序列化,ansj_seg-2.0.8.jar是对而ansj中的属性类序列化,将ansj_seg-master/src/main/java/org/ansj/domain中的属性类AnsjItem、Nature、 NewWord、NumNatureAttr、PersonNatureAttr、Term、TermNature、TermNatures分别实现 Serializable接口

2015-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除