关闭

DataSet 实质解读

参考资料:http://www.jianshu.com/p/77811ae29fddhttp://blog.csdn.net/zg_hover/article/details/54405224?locationNum=10&fps=1http://geek.csdn.net/news/detail/96754...
阅读(64) 评论(0)

Spark SQL Catalyst深入理解

阅读材料: SparkSQL – 从0到1认识Catalyst http://www.dataguru.cn/article-10731-1.html此篇文章介绍了Spark SQL如何将SQL语句转化为Spark物理执行计划的详细过程重点归纳: sqltext 经过 parser 得到 语法树(unresolvedlogicalplan),unre...
阅读(84) 评论(0)

Spark SQL程序SBT编译打包优秀博文总结

理论: 不同的操作系统、cpu体系对编译过程有着什么样的影响? http://kb.cnblogs.com/page/72579/ 打包实例: IDEA调试sparksql,打包并提交运行 http://blog.csdn.net/weipanp/article/details/45098669 进阶: 使...
阅读(62) 评论(0)

rdd依赖关系、stage划分、stage任务执行揭秘

rdd依赖关系、stage划分、stage任务执行揭秘...
阅读(78) 评论(0)

范围分区、hash分区等概念

原作者:http://keepwork.iteye.com/blog/1949489 一、使用分区的优点:1、增强可用性:如果表的某个分区出现故障,表在其他分区的数据仍然可用;2、维护方便:如果表的某个分区出现故障,需要修复数据,只修复该分区即可;3、均衡I/O:可以把不同的分区映射到磁盘以平衡I/O,改善整个系统性能;4、改善查询性能:对分区对象的查询可以仅搜索自己关心的分区,提高检索速度。 二...
阅读(89) 评论(0)

Hadoop支持的多种文件系统URI格式

org.apache.hadoop.fs.FileSystem这个抽象类代表hadoop的一个文件系统,目前系统已经有很多个具体实现:文件系统 URI前缀 hadoop的具体实现类Local file fs.LocalFileSystemHDFS h...
阅读(94) 评论(0)

scala文档阅读笔记

Scala被编译成字节码文件.class后在Java虚拟机上运行, 许多现有公司依靠Java进行关键业务应用转向或正在转向Scala,以提高其开发生产力,应用程序可扩展性和整体可靠性Scala可以执行Java代码 Scala能够使用Java SDK的所有类以及自定义Java类,或您最喜欢的Java开源项目● 闭包 - 闭包是一个函数,其返回值取决于在此函数之外声明的一个或多个变量的值。 ●...
阅读(89) 评论(0)

python——自写数据库(带平衡树索引)

界面展示 : Hello, DBMS(byGreat!Great!Great!Han!!!!!!!!!!!!!!!!!) 为您服务!!!username: jihan password: 123456 登陆成功 欢迎您,尊敬的超级管理员 jihan Sql_Service>>>help ___________________________________本次SQL服务结果__...
阅读(100) 评论(0)

Scala 闭包概念

1、闭包是一个有状态(不消失的私有数据)的函数。2、闭包是一个有记忆的函数。3、闭包相当于一个只有一个方法的紧凑对象(a compact object)。举例: 已知一个函数 f( x ) = x + i ,让你求 f(3) = 3+i。分析:要得到最终的函数值,你必须知道i的值。i称作开放项(“开”着的,对应闭包的“闭”),若上文中定义了“ inti = 1” ,则可以得到f(3)...
阅读(66) 评论(0)

scala _下划线含义

map(._2) 等价于 map(t => t._2) //t是个2项以上的元组map(.2, ) 等价与 map(t => t.2, t) //这会返回第二项为首后面项为旧元组的新元组._n 为获取元组第n项 则为eta-conversion (lambda表达式支持的一种变换 )的入参缩写形式,scala里 a => foo(a) 经过eta-conversion后,直接就是右边的函数名foo,...
阅读(73) 评论(0)

5款开源的PHP网站流量统计应用程序

下面是5款开源的PHP网站流量统计应用程序。piwikPiwik 是一套基于Php+MySQL技术构建的开源网站访问统计系统,前身是phpMyVisites。Piwik可以给你详细的统计信息,比如网页浏览人数, 访问最多的页面, 搜索引擎关键词等等,并且采用了大量的AJAX/Flash技术,使得在操作上更加便易。此外,它还采用了插件扩展及开放API架构,可以让开发人员根据自已的实际需求创建更多的功能...
阅读(493) 评论(0)

scala:Object与Class的区别

1.在Scala中声明private变量,Scala编译器会自动生成get,set方法 2.在Scala中变量需要初始化 3.在Scala中没有静态修饰符,在object下的成员全部都是静态的,如果在类中声明了与该类相同的名字的object则该object是该类的”伴生对象” 可以理解为Scala把类中的static集中放到了object对象中,伴生对象和类文件必须是同一个源文件,可以用伴生...
阅读(97) 评论(0)

MAVEN包管理工具

配置Maven环境变量与Intelij IDE配置Mavenhttp://www.cnblogs.com/qiuyong/p/6292678.html在IDEA中向已存在项目添加Maven支持 右击项目,添加 框架支持,选择maven...
阅读(109) 评论(0)

SparkSQL:如何找到与Spark版本对应的jar包

方法:进入Spark官网,下载对应版本的Spark,注意相应版本号,以及直接下载预编译的版本,不要下源码包 下载之后,解压,到该文件夹下的jars目录,对应Spark版本的相应jar包均在其中,再导入IDE既可以进行开发了...
阅读(60984) 评论(0)

【Spark 2.0官方文档】Spark SQL、DataFrames以及Datasets指南

文档说明本文是基于《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南 这篇文章翻译而来。 原文中关于R语言的部分本文档全都省略。 由于个人水平有限,有些地方难免翻译的不准确,烦请指正。概述 Spark SQL 是 Spark 用于处理结构化数据的一个模块。不同于基础的 Spark RDD API,Spark SQL 提供的接口提供了更多关于数据和...
阅读(53119) 评论(0)
120条 共8页1 2 3 4 5 ... 下一页 尾页