![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 80
wangqiaowqo
我思故我在,欢迎大家来访!
展开
-
spark学习一
spark学习一1、参考文档OSTC2015-张安站-Spark技术内幕http://share.csdn.net/slides/13506使用IDEA开发Spark应用http://debugo.com/idea-spark/Apache Spark学习:利用Eclipse构建Spark集成开发环境http://dongxicheng.org/framework-on...原创 2015-07-21 16:54:38 · 517 阅读 · 0 评论 -
spark-mllib-TFIDF实现
spark-mllib-TFIDF实现http://blog.csdn.net/xiao_jun_0820/article/details/49277869原创 2016-02-04 11:00:37 · 125 阅读 · 0 评论 -
Spark SQL学习
Spark SQL编程指南(Python)http://www.cnblogs.com/yurunmiao/p/4685310.html绍Spark SQL的Register Function,也就是说可以动态创建函数用于SQL查询,其实际作用类似于Hive UDF。Spark SQL为我们提供了强大的数据分析能力,主要体现在以下三个方面: (1)Spark RDD可以...原创 2015-12-18 13:47:22 · 80 阅读 · 0 评论 -
spark异常汇总
spark异常汇总1、输出目录已存在[code="java"] diagnostics: Application application_1444384383185_2518 failed 2 times due to AM Container for appattempt_1444384383185_2518_000002 exited with exitCode: 15 ...原创 2015-11-16 16:29:29 · 280 阅读 · 0 评论 -
sparkSQL学习
参考:spark官方中文文档1、综述 1.1版本 Spark SQL允许在Spark中执行使用SQL,HiveQL或Scala表示的关系型查询。核心组件为一个新类型的RDD--SchemaRDD。SchemaRDDs由行对象以及用来描述每行中各列数据类型的模式组成。每个SchemaRDD类似于关系型数据库中的一个表。SchemaRDD的创建可以来自于已存在的RDD或Parquet文件...原创 2015-11-09 15:54:47 · 81 阅读 · 0 评论 -
spark学习笔记二
spark官方中文文档(spark亚太研究院联合出品)读书笔记1、RDD操作 http://www.tuicool.com/articles/ZfeQrq7 RDD支持两种操作: 转换(transformations),可以从已有的数据集创建一个新的数据集; 动作(actions),在数据集上运行计算后,会向驱动程序返回一个值。 map 就是一个转换,它讲数据集每一个元...原创 2015-10-30 12:17:28 · 69 阅读 · 0 评论 -
spark学习连接
Spark SQL结构化数据分析http://www.aboutyun.com/thread-14481-1-1.htmlSpark 1.3.0版中 DataFrame 实践http://www.aboutyun.com/thread-12312-1-3.html怎样利用Spark Streaming和Hadoop实现近实时的会话连接http://www.aboutyu...原创 2015-10-28 17:56:46 · 74 阅读 · 0 评论 -
spark运行及开发环境搭建
一、Linux下spark运行环境搭建http://wenku.baidu.com/link?url=V14fWw5C3vp2G7YhTApqknz_EKwowBGP8lL_TvSbXa8PN2vASVAHUSouK7p0Pu14h3IBf8zmdfPUNUT-2Hr-cnDUzivYJKupgWnEkbHTY8i参考http://wenku.baidu.com/link?url=...原创 2015-09-29 12:04:28 · 347 阅读 · 0 评论 -
Spark参数调优
参考https://www.zybuluo.com/xiaop1987/note/102894在一个 Spark 应用中,每个 Spark executor 拥有固定个数的 core 以及固定大小的堆大小。core 的个数可以在执行 spark-submit 或者 pyspark 或者 spark-shell 时,通过参数 --executor-cores 指定,或者在 spark-d...原创 2016-06-20 10:58:09 · 112 阅读 · 0 评论 -
Spark + ansj 对大数据量中文进行分词
1、参考http://www.open-open.com/lib/view/1432542541707Spark + ansj 对大数据量中文进行分词原创 2016-03-02 10:31:04 · 182 阅读 · 0 评论