spark
_张小凡
这个作者很懒,什么都没留下…
展开
-
pyspark使用jieba.analyse报错IOError: [Errno 20] Not a directory:
问题: jieba打包zip后上传spark运行jieba.analyse包中tfidf报错: IOError: [Errno 20] Not a directory: 'XXXX/jieba.zip/jieba/analyse/idf.txt' 解决方案: 修改analyse包下的tf_idf.py如下(代码参考自:https://github.com/fxsjy/jieba/pull/539/files): # encoding=utf-8 from __future__ import ab原创 2020-08-20 11:37:01 · 1062 阅读 · 0 评论 -
Spark1.0.x入门指南
文章出处:http://www.cnblogs.com/Scott007/p/3849677.html 1 节点说明 IP Role 192.168.1.111 ActiveNameNode 192.168.1.112 StandbyNameNode,Master,Worker转载 2015-04-08 20:13:48 · 585 阅读 · 0 评论 -
spark 安装
http://blog.csdn.net/hxpjava1/article/details/19177913 环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3 折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客大部分都还停留在需要依赖mesos的转载 2015-04-08 18:31:38 · 339 阅读 · 0 评论