Spark - 报错 “A master URL must be set in your configuration” when submitting an app

将sc创建在main函数内解决

2019-03-14 16:31:26

阅读数 79

评论数 0

k-d tree算法

k-d树(k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。 应用背景   SIFT算法中做特征点匹配的时候就会利用到k-d树。而特征点匹配实际上就是一个通过距离函数在高维矢量之间进行相似性检索的问题。针对如何...

2019-02-16 16:40:42

阅读数 100

评论数 0

Spark Mllib里的协调过滤的概念和实现步骤、LS、ALS的原理、ALS算法优化过程的推导、隐式反馈和ALS-WR算法

不多说,直接上干货!       常见的推荐算法   1、基于关系规则的推荐   2、基于内容的推荐   3、人口统计式的推荐   4、协调过滤式的推荐 (广泛采用)          协调过滤的概念   在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过...

2019-01-25 17:19:37

阅读数 131

评论数 0

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。 今天先看几个基础的,SUM、AVG、MIN、MAX。 用于实现分组内所有和连续累积的统计。 Hive版本为 apache-hive-0.13.1 数据准备   CREATE ...

2019-01-23 10:43:35

阅读数 138

评论数 0

jedis上eval的用法

import static org.junit.Assert.*; import java.util.ArrayList; import java.util.List; import org.junit.Test; import redis.clients.jedis.Jedis; /** @...

2019-01-14 20:00:30

阅读数 1299

评论数 0

【机器学习】正则化的线性回归 —— 岭回归与Lasso回归

注:正则化是用来防止过拟合的方法。在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数。但是一直也无法对其基本原理有一个透彻、直观的理解。直到最近再次接触到这个概念,经过一番苦思冥想后终于有了我自己的理解。   0. 正则化(Regularization )...

2018-08-07 19:50:09

阅读数 390

评论数 0

hive对列按顺序转换为行

--创造数据create table persona.test_hz 已有数据1 1 a1 2 b1 3 c1 4 d1 5 e2 5 e2 4 d2 3 c2 2 b2 1 a3 1 a3 2 b3 3 c3 4 d3 5 e4 5 e4 4 d4 3 c4 2 b4 1 aselect id,...

2018-06-27 19:52:33

阅读数 604

评论数 0

hive踩坑记录:count(distinct col1,col2) 遇见某列中有null值,结果不准

count(distinct col1,col2) 遇见某列中中有null值,结果不准 SELECT count(DISTINCT col1,col2) from (SELECT 2 as col1,1 as col2 union all SELECT null as col1,2 as...

2017-12-28 10:47:53

阅读数 824

评论数 0

Hive对有null值得一列做avg,count等操作时会过滤掉有NULL值的这一行

WITH tmp AS (SELECT null as col1 union all SELECT 2 as col1 union all SELECT 4 as col1 ) SELECT avg(1) from tmp 结果是3; WITH tmp AS (SELE...

2017-11-21 22:26:56

阅读数 3151

评论数 0

spark调优第二篇:spark内存溢出还可能是你的driver memory的内存内存不够

java.lang.OutOfMemoryError: GC overhead limit exceeded 在模型中我需要将100万的数据读出来经行筛选在组成一个30万维大数组,那么其中一个操作涉及到将rdd转化为array。 在这一步中其实是将所有的数据都拉到一台机器上了,也就...

2017-10-30 22:11:49

阅读数 5078

评论数 1

Spark调优第一篇

最初级的早启动spark-shell时这些设置的 ./bin/spark-submit \ --master yarn-cluster \ --num-executors 100 \ --executor-memory 6G \ --executor-cores 4 \ --drive...

2017-10-14 22:01:56

阅读数 158

评论数 0

Spark中的DataFrame的getAs方法如果取到的值是null的处理

Spark中的DataFrame的getAs方法如果取到的值是null的处理结果 我遇到的两种情况吧 val DF = hc.sql("...............") val rdd = DF.rdd.map{ row => val label = row....

2017-10-14 20:17:08

阅读数 4932

评论数 0

Spark的日志配置

在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的,因为作业是提交到yarn的集群上,so 去yarn集群上看日志是很麻烦的,但有特别想看下print的信息,方便调试或者别的目的 在Spark的co...

2016-09-04 11:09:58

阅读数 287

评论数 0

稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB

稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB 时间 2015-02-04 23:05:00  博客园-原创精华区 原文  http://www.cnblogs.com/xbinworld/p/4273506.html 主题 矩阵 Dia 稀...

2016-08-23 11:21:34

阅读数 1322

评论数 0

spark1.6.0集群安装

1. 概述 本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。   2. 安装环境 本安装说明的示例环境部署如下: IP 外网IP hostname ...

2016-07-18 21:32:26

阅读数 1253

评论数 0

hive初次使用报错

hive(元数据存储在mysql) 启动 Exception in thread "main" java.lang.RuntimeException: Hive metastore database is not initialized. Please use schemat...

2016-07-12 17:02:39

阅读数 7789

评论数 0

Hadoop安装教程_单机/伪分布式配置_CentOS6.4/Hadoop2.6.0

本教程使用 CentOS 6.4 32位 作为系统环境,请自行安装系统(可参考使用VirtualBox安装CentOS)。如果用的是 Ubuntu 系统,请查看相应的 Ubuntu安装Hadoop教程。 本教程基于原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下...

2016-07-05 14:47:29

阅读数 1405

评论数 0

遍历Map的4种方法

public static void main(String[] args) {   Map map = new HashMap();   map.put("1", "value1");   map.put("2", &qu...

2016-04-19 16:47:00

阅读数 256

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭