- 博客(7)
- 资源 (5)
- 问答 (2)
- 收藏
- 关注
转载 SQL分组求每组最大值问题的解决方法收集
本文转自http://blog.sina.com.cn/s/blog_464f6dba0100orvf.html,所有权力归原作者所有。例如有一个表student,其结构如下:id name sort score1 张三 语文 822 李四 数学 953
2015-09-30 15:52:04 5821
转载 SparkSQL: no typetag available for xxxx问题的解决办法
case class 类要定义在Object类的上面,即外面如果cass class类放在了Object类里面,就会报标题的异常
2015-09-29 09:13:45 3468
转载 学习Scala:使用try-catch表达式处理异常
本文节选自Martin Odersky,Lex Spoon和Bill Venners所著,Regular翻译的《Programming in Scala》的第七章。Scala是一种针对 JVM 将函数和面向对象技术组合在一起的编程语言。AD:Scala的异常和许多其它语言的一样。代之用普通方式那样返回一个值,方法可以通过抛出一个异常中止。方法的调用者要么可以
2015-09-29 09:12:11 9884
原创 Spark SQL连接数据库找不到Mysql驱动解决方法
这里说明一点:本文提到的解决Spark insertIntoJDBC找不到Mysql驱动的方法是针对单机模式(也就是local模式)。在集群环境下,下面的方法是不行的。这是因为在分布式环境下,加载mysql驱动包存在一个Bug,1.3及以前的版本 --jars 分发的jar在executor端是通过Spark自身特化的classloader加载的。而JDBC driver manager使
2015-09-27 22:39:23 13989 2
原创 CygWin遇到WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED解决方法
本文解决办法学习自http://linuxme.blog.51cto.com/1850814/375752,所有权力归原作者所有。在使用Spark on Yarn集群时,集群系统重装后,使用CygWin远程登录集群时,出现@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ WARNING: REMOTE
2015-09-24 20:52:27 1311
转载 Spark SQL中的DataFrame
在2014年7月1日的 Spark Summit 上,Databricks 宣布终止对 Shark 的开发,将重点放到 Spark SQL 上。在会议上,Databricks 表示,Shark 更多是对 Hive 的改造,替换了 Hive 的物理执行引擎,因此会有一个很快的速度。然而,不容忽视的是,Shark 继承了大量的 Hive 代码,因此给优化和维护带来了大量的麻烦。随着性能优化和先进分析整
2015-09-24 15:13:06 1199
转载 Spark DataFrame小试牛刀
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自动转化为可并行处理格式的水渠,通过它Spark能
2015-09-22 21:46:56 593
PHP pgsql驱动文件
2022-05-13
feralpacket.ini.txt
2020-05-13
idea-plugin.zip
2019-11-18
对Spark RDD中的数据进行处理
2015-07-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人