关闭

spark 错误

一、Error for /api/v1/applications java.lang.ClassNotFoundException: org.apache.spark.status.api.v1.ApiRequestContext错误比较诡异,spark api 里根本没有这个类,不行的话,只能把org.apache.spark.status.api.v1,这个包在spark-core_2.11-2...
阅读(109) 评论(0)

spark 运行原理

job task stage http://litaotao.github.io/deep-into-spark-exection-model...
阅读(59) 评论(0)

数据倾斜

http://www.jianshu.com/p/06b67a3c61a9任务倾斜...
阅读(50) 评论(0)

spark 小技巧

一、把结果带出foreachval e= b.map(f⇒{ var dbConnector:GraphDatabaseConnector=new Neo4jConnector(); val eachList=dbConnector.getPersonSimList(f._1) dbConnector.finalize() dbConnec...
阅读(63) 评论(0)

spark 共享变量

闭包原则 https://fangjian0423.github.io/2016/01/27/spark-programming-guide/...
阅读(127) 评论(0)

spark mllib 相关使用

spark向量、矩阵类型 http://blog.csdn.net/bluejoe2000/article/details/44217949 BLAS (不太明白为何是private)http://snacktrace.com/artifacts/org.apache.spark/spark-mllib_2.11/2.0.0-preview/org.apache.spark.mllib.lin...
阅读(70) 评论(0)

spark rdd scala相关使用

一、Sort排序详解val rdd3=rdd2.map(r⇒(r._1._1._1,r._2._1._1,euclidean(r._1._1._2,r._2._1._2))) val rdd4=rdd3.map(r⇒(r._3,r)) val rdd6=rdd4.sortByKey(false) var rdd7= rdd3.sortBy(r⇒(r._3),false)false代表降序http:/...
阅读(85) 评论(0)

spark 集群相关使用

要在spark-defaults.conf 设置如下参数,避免很多问题 spark.driver.maxResultSize 2g spark.driver.memory 10g可能可以解决group by的问题 spark.serializer org.apache.spark.serializer.JavaSeri...
阅读(161) 评论(0)

spark 2.0 新特性

1、引入了新的ANSI SQL解析器,并支持子查询功能。 Spark 2.0可以运行所有99个TPC-DS查询(需求SQL:2003中的很多功能支持)。 2、简化了API:参考: http://f.dataguru.cn/thread-629612-1-1.html http://lxw1234.com/archives/2016/05/666.htm...
阅读(378) 评论(0)

spark 性能调优

https://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/spark-sql/performance-tuning.html http://blog.csdn.net/book_mmicky/article/details/40394081...
阅读(292) 评论(0)

spark sql cli

将hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下;...
阅读(160) 评论(0)

word2vec

参考: http://wei-li.cnblogs.com/p/word2vec.html http://blog.csdn.net/lingerlanlan/article/details/38232755 http://blog.csdn.net/zhaoxinfan/article/details/11069485 http://blog.csdn.net/zhaoxinfan/art...
阅读(72) 评论(0)

spark 入门

命令行下如果需要绑定文件路径需要使用如下方式val textFile = sc.textFile("file:///letv/data/spark-1.5.0-bin-hadoop2.6/README.md")参考: http://colobu.com/2014/12/08/spark-quick-start/...
阅读(125) 评论(0)

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。  一、RDD内存数据结构  大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升...
阅读(173) 评论(0)

spark 搭建

启动spark sbin/start-all.sh 主节点: slave节点: 参考: http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/...
阅读(218) 评论(0)
    个人资料
    • 访问:23354次
    • 积分:949
    • 等级:
    • 排名:千里之外
    • 原创:57篇
    • 转载:88篇
    • 译文:0篇
    • 评论:0条
    文章分类
    阅读排行