数据挖掘
文章平均质量分 64
demonwang1025
这个作者很懒,什么都没留下…
展开
-
深入浅出数据仓库中SQL性能优化之Hive篇
Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。转载 2017-08-14 11:57:34 · 665 阅读 · 0 评论 -
RDD:基于内存的集群计算容错抽象
该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。转载 2017-07-28 16:30:00 · 595 阅读 · 0 评论 -
Zeppelin Spark配置GroovySpark
Zeppelin Spark中添加GroovySpark的支持原创 2017-07-27 17:32:58 · 616 阅读 · 0 评论 -
Apache Zeppelin简介与源码
简介Zeppelin是一个Apache的孵化项目. 一个基于web的笔记本,支持交互式数据分析。你可以用SQL、Scala等做出数据驱动的、交互、协作的文档。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)原创 2017-07-27 18:05:09 · 357 阅读 · 0 评论 -
Zeppelin下GroovyInterpreter的配置
GroovyInterpreter的配置原创 2017-07-26 11:21:46 · 676 阅读 · 0 评论 -
Groovy SPL 语法链设计
因为要设计SPL,也可以说是DSL,采用Groovy,在chain调用的过程中发现两种方式。原创 2017-08-11 15:02:21 · 442 阅读 · 0 评论 -
Spark DataFram 脏数据与databricks
前两天在使用Spark SQL的过程中,一直遇到ArrayOutofBoundsError,然后比较了一下用databricks加载数据与不用的区别。原创 2017-08-11 14:40:02 · 807 阅读 · 0 评论 -
Hive入门
经常忘记hive的用处和方法,所以转载一篇方便下次查看转载 2017-08-04 10:29:19 · 350 阅读 · 0 评论 -
Spark独立集群模式部署
Spark独立集群模式部署1.local:本地模式,不是集群模式2.独立集群模式2.1 配置conf/slaves Slave1 Slave2 Slave32.2 同步conf文件到所有集群节点2.3 在Master节点启动master进程,start-master.sh2.4 在Slave节点上启动slave进程start-slave.sh(或直接在ma原创 2017-02-23 11:10:37 · 656 阅读 · 0 评论 -
hive sql语句转换成mapreduce
1.hive是什么?2.MapReduce框架实现SQL基本操作的原理是什么?3.Hive怎样实现SQL的词法和语法解析?连接:http://www.aboutyun.com/thread-20461-1-1.html 美团大众点评上:http://tech.meituan.com/hive-sql-to-mapreduce.转载 2017-08-15 14:12:41 · 1099 阅读 · 0 评论