- 博客(12)
- 资源 (4)
- 收藏
- 关注
转载 什么是用户画像?金融行业大数据用户画像实践 [
什么是用户画像?金融行业大数据用户画像实践 [复制链接] 丫丫98主题128帖子674积分超级版主积分674收听TA发消息电梯直达
2015-10-27 08:07:31
8989
1
转载 Alex 的 Hadoop 菜鸟教程: 第7课 Sqoop2 导入教程
Alex 的 Hadoop 菜鸟教程: 第7课 Sqoop2 导入教程时间 2014-11-26 17:13:36 CSDN博客原文 http://blog.csdn.net/nsrainbow/article/details/41518451 主题 数据库 HadoopHDFS具体的安装和jdbc的驱动准备你们看第6课。现在我用一个例子讲
2015-10-06 15:32:15
1384
转载 Spark性能调优
摘要:通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。性能监控工具【Spark监控工具】Spark提供了一些基本的Web监控页面,对于日常监控十分有用。1. Application Web UI
2015-10-04 13:14:02
2796
转载 spark中的SparkContext的textFile使用的小窍门
网上很多例子,包括官网的例子,都是用textFile来加载一个文件创建RDD,类似sc.textFile("hdfs://ss:8020/hdfs/input")textFile的参数是一个path,这个path可以是:1. 一个文件路径,这时候只装载指定的文件2. 一个目录路径,这时候只装载指定目录下面的所有文件(不包括子目录下面的文件)3. 通过通配符的形式加载多个文件或者
2015-10-04 11:05:34
6167
转载 Hadoop YARN架构设计要点
Hadoop YARN架构设计要点2015-06-01 22:57:15 YanjunYARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已经是一个更加通用的资源管理系统,可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上,通过YARN来管理资源。如果你的应用程序也需要
2015-10-04 10:43:42
999
转载 TDW千台Spark千亿节点对相似度计算
TDW千台Spark千亿节点对相似度计算2014-11-16分类:TDW 相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度计算会引入大量的网络开销,导致性能低下。我们借助于Spark
2015-10-03 11:21:12
690
转载 spark on yarn运行产生缺jar包错误及解决办法
spark on yarn运行产生缺jar包错误及解决办法2014-12-10 19:57:44http://blog.csdn.net/mach_learn/article/details/41824737--点击数: 12461、本地运行出错及解决办法当运行如下命令时:./bin/spark-submit /--class org
2015-10-03 11:14:52
2596
转载 Spark源码系列(七)Spark on yarn具体实现
Spark源码系列(七)Spark on yarn具体实现 作者 岑玉海的博客,火龙果软件 发布于 2014-11-11来自于要资料 909 次浏览 评价: 好 中 差 本来不打算写的了,但是真的是闲来无事,整天看美
2015-10-03 11:13:12
721
转载 Spark On YARN内存分配
Spark On YARN内存分配时间 2015-06-09 00:00:00 JavaChen's Blog原文 http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html 主题 Spark YARN本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深
2015-10-03 11:08:48
12257
转载 教你如何查看识别hadoop是32位还是64位
问题导读:1.从哪些地方可以识别hadoop是32位还是64位?2.hadoop本地库在什么位置?hadoop在安装的时候,我们需要知道hadoop版本是32位还是64位。hadoop官网本来提供的都是32位,因为我们大部分都是64位,所以不得不编译。后来官网从hadoop2.5版本开始就提供了64位。为了防止我们用错,下面我们来实际操作和观察。
2015-10-03 10:01:23
1842
原创 spark 日志分析
spark 运行日志分析1.问题:一直在运行的spark 运行时,发现数据应该690多万,而只有610多万,控制台日志正常。异常出现异常时,在控制台中日志正常。怎样查找这个错误异常日志2.处理:由于数据量比较大计算一次需要30多分钟,因此在运行采用二分进行原因分析,最后确定是9.17日的数据,然后在开发环境进行,发现 java.lang.ArrayIndexOutOfBoundsExcep
2015-10-03 09:31:37
3788
转载 许鹏:从零开始学习,Apache Spark源码走读(三)
许鹏:从零开始学习,Apache Spark源码走读(三)发表于2014-06-18 18:30| 17149次阅读| 来源个人博客| 24 条评论| 作者许鹏大数据Spark开源技术博客推荐 摘要:自2013年6月进入Apache孵化器,Spark已经有来自25个组织的120多位开发者参与贡献。而在不久前,更成为了Apache软件基金会的顶级项目,当下已是知名Hado
2015-10-02 16:09:31
1146
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人