关闭

spark 相关使用

http://blog.csdn.net/yeruby/article/details/41043039scala> var textFile = sc.textFile("hdfs://ns1/a.txt"); scala> textFile.count()相对路径是hdfs://ns1/user/labadmin/只有启动了服务,4040才会开启,如果4040被占用,会用4041端口...
阅读(108) 评论(0)

spark 使用

要在spark-defaults.conf 设置如下参数,避免很多问题 spark.driver.maxResultSize 2g spark.driver.memory 10g可能可以解决group by的问题 spark.serializer org.apache.spark.serializer.JavaSeri...
阅读(108) 评论(0)

spark 2.0 新特性

1、引入了新的ANSI SQL解析器,并支持子查询功能。 Spark 2.0可以运行所有99个TPC-DS查询(需求SQL:2003中的很多功能支持)。 2、简化了API:参考: http://f.dataguru.cn/thread-629612-1-1.html http://lxw1234.com/archives/2016/05/666.htm...
阅读(343) 评论(0)

spark sql 性能调优

https://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/spark-sql/performance-tuning.html http://blog.csdn.net/book_mmicky/article/details/40394081...
阅读(240) 评论(0)

spark sql cli

将hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下;...
阅读(143) 评论(0)

word2vec

参考: http://wei-li.cnblogs.com/p/word2vec.html http://blog.csdn.net/lingerlanlan/article/details/38232755 http://blog.csdn.net/zhaoxinfan/article/details/11069485 http://blog.csdn.net/zhaoxinfan/art...
阅读(56) 评论(0)

spark 入门

命令行下如果需要绑定文件路径需要使用如下方式val textFile = sc.textFile("file:///letv/data/spark-1.5.0-bin-hadoop2.6/README.md")参考: http://colobu.com/2014/12/08/spark-quick-start/...
阅读(103) 评论(0)

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。  一、RDD内存数据结构  大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升...
阅读(141) 评论(0)

spark 搭建

启动spark sbin/start-all.sh 主节点: slave节点: 参考: http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/...
阅读(192) 评论(0)
    个人资料
    • 访问:17529次
    • 积分:803
    • 等级:
    • 排名:千里之外
    • 原创:51篇
    • 转载:76篇
    • 译文:0篇
    • 评论:0条
    文章分类
    阅读排行
    评论排行