花名:白起

科技改变世界,技术改变人生。

spark RDD分区2GB限制(Size exceeds Integer.MAX_VALUE)

最近使用spark处理较大的数据文件,遇到了分区2G限制的问题,spark日志会报如下的日志: WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, 10.111.32.47): java.lang.Illega...

2017-08-25 15:17:32

阅读数:3038

评论数:0

Spark朴素贝叶斯(naiveBayes)实践

介绍 Byesian算法是统计学的分类方法,它是一种利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法想媲美,该算法能运用到大型数据库中,且方法简单,分类准确率高,速度快,这个算法是从贝叶斯定理的基础上发展而来的,贝叶斯定理假设不同属性值之间是不相关联的...

2017-04-01 17:43:03

阅读数:211

评论数:0

使用spark mllib预测用户对电影的评分

实例目的:使用spark机器学习模型预测用户对mid的评分 1、训练数据格式(用户uid,电影mid,评分rating) $more train.csv 0,0,2 0,8,4 0,13,1 0,18,3 0,34,3 0,38,4 0,44,5 0,59,2 0,115,5 0,555,2 0...

2017-03-30 11:38:29

阅读数:876

评论数:0

Spark下使用python写wordCount

安装spark就省略了,网上很多方法。 test-data.txt文件 a b c aaa bbb ccc a b c c b a vi wordcount.py #!/usr/bin/env python #-*-conding:utf-8-*- import logging from ...

2016-11-18 14:46:43

阅读数:2587

评论数:0

spark history server内存不足服务自动挂掉

版本:Spark 1.5.2 built for Hadoop 2.4.0 今天spark的history server自己挂掉了,查看日志: 16/05/13 14:12:30 WARN DFSClient: Failed to connect to /192.168.2.77:50010 f...

2016-05-13 17:33:52

阅读数:2997

评论数:0

Spark资源参数调优参数

Spark资源参数调优 了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每...

2016-05-03 18:18:08

阅读数:401

评论数:0

Spark On YARN自动调整Executor数量配置 - Dynamic Resource Allocation

Spark 1.5.2版本支持为Spark On YARN模式的Spark Application根据Task自动调整Executor数,要启用该功能,需做以下操作: 一:在所有的NodeManager中,修改yarn-site.xml,为yarn.nodemanager.aux-service...

2016-04-13 14:31:38

阅读数:2425

评论数:0

spark on yarn报错ERROR GPLNativeCodeLoader: Could not load native gpl library

启动spark-sql spark-sql --master yarn-client  --executor-memory 1G 报错: 16/03/30 14:45:32 WARN BlockReaderLocal: The short-circuit local reads feature ...

2016-04-13 14:31:36

阅读数:1286

评论数:0

maven编译spark1.6.2

1.1 搭建环境 1.1.1 安装并设置maven 1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.3.3的二进制包,下载地址如下 http://mirror.bit.edu.cn/apache/maven/maven-3/ 2. 使用ssh工具把maven包...

2016-04-13 14:31:33

阅读数:1085

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭